06.28 近4成经过同行评审的营养健康研究是错的,到底出了什么问题?

近4成经过同行评审的营养健康研究是错的,到底出了什么问题?

本文转自科研圈

近4成经过同行评审的营养健康研究是错的,到底出了什么问题?
近4成经过同行评审的营养健康研究是错的,到底出了什么问题?

图片来源:Times Higher Education

作者 Patrick Clinton

翻译 王可

审校 阿金

咖啡会不会致癌?黄油到底健不健康?对于这类问题,我们总是拿不准该如何回答。其实,食品营养科学研究存在一些很大的问题:可疑的数据、不可靠的结果、还有无处不在的偏见

(不只是针对“餐饮业巨无霸”,比如麦X劳和百X集团)。因此我们真诚地希望:科学家们和学术期刊能够规范他们的行为,记者们能够优化一下他们不靠谱的“探测器”,别老一脸震惊地报道一些所谓营养学的“没营养新发现”。然而,在这天到来之前,我们最好先学学如何靠自己做好过滤工作

最近在统计学界发表的两篇文章正好为我们找到了一种绝佳工具,尽管它无法一劳永逸地解决问题,但目前来说,已经能提供一些我们急需的保护措施。在这里,为了能够了解具体内容,我们需要在数学领域畅游一下,不过别担心,跟紧我,你绝对不会觉得太难的。

让我们找出三篇最近发表的饮食营养研究:

每天食用 50 克西梅能帮助患有骨质疏松的老年女性预防骨密度的降低

(https://link.springer.com/article/10.1007%2Fs00198-016-3524-8)

48 克黑巧克力可以改善你的脑电波

(https://www.fasebj.org/doi/10.1096/fasebj.2018.32.1_supplement.878.10)

食用猪肉泥的婴儿比食用奶制品的婴儿长得更高

(https://www.ncbi.nlm.nih.gov/pubmed/29722841)

这些研究都经过了同行评审,都声称自己的结果具有统计学显著性,而且他们都指出常见食物和健康结果之间明确的因果关系。然而,这三项研究中很可能会有一个(也有可能全部)最终被证明是错的。那么,我们到底应该相信哪个 ?

近4成经过同行评审的营养健康研究是错的,到底出了什么问题?

双重错误制造正确结果

在营养学研究中,有个问题很常见,你很可能在新闻报道中读到过:像大多数研究一样,他们会用一种非常反直觉的方法,称之为“零假设检验”

这种方法大致如下:首先,你需要提出你想要验证的任何问题,比如“药物 X 可以治愈癌症”。但接下来你不要去试图直接验证它本身,因为这在现实世界中是不可能的,你去验证它的对立面。也就是说,“我要试着去证明:药物X和治愈癌症这两件事之间的任何联系都只是出于偶然。”这种看起来有些含糊其辞的否命题陈述就是你的零假设( hypothesis)

然后你就做实验、分析数据。如果幸运的话,你会发现没有足够证据证明药物 X 和治愈癌症之间没有关系(是不是已经晕了?)。换言之,药物 X 和治愈癌症之间的联系并不是出于偶然。那么,你就会顺理成章地认为药物 X 能治愈癌症。

但事实并非如此。有很多变量因素会影响你的结果:年龄、体重、性别、吸烟与否……不胜枚举。

一个好的实验设计会控制尽可能多的变量,但总会有一些你不知道的其他影响因素。没有人可以筛选掉所有可能的变量,所以科学研究不可能完美

对于非专业读者来说,他们很难理解并消化零假设检验。但统计学家会告诉你,它几乎是唯一的,或者说是最佳实验设计方法。近一百年以来,自罗纳德·爱尔默·费雪(Ronald Aylmer Fisher)出版了他那本影响深远的《研究者的统计学方法》(Statistical Methods for Research Workers)之后,每位未来的科学家都学过这一内容。

而这也是如今我们陷入如此困境的部分原因。

什么是发生概率?

让这套奇异证明体系奏效的重点,在于了解需要多少证据来证实或者证伪一个零假设,换句话说,就是你怎么能确定你的结果具有统计学显著性?实际上有很多种方法,其中不少方法深奥复杂,但绝大多数研究都使用同一种叫做“P值”的方法(P

代表“probability”,即概率)。

计算 P值需要用到实验数据和用来构建实验的假定条件,P值应在 0 到 1 的范围内。低P值就是好结果,它说明你的结果不太可能是偶然得之;相反,高P值则代表你得到的结果(关联性)很可能是偶然产生的。

几十年以来,这已经渐渐成为一个人们都遵从的传统:P值等于或低于 0.05 代表结果具有统计学显著性,说明它“可信”。P值等于 0.05 可以解释为:实验结果只有 5%(1/20)的可能性是偶然产生的——这个可能性是可以接受的。

但问题是,实际上 P=0.05 原本的意义并非如此,统计学家定义的P值和我们对它的应用之间,存在巨大的鸿沟。当你读到一个非技术性设定的P值时,你还会看到不少条理清晰合理的解释,但很明显它们是错的。

原因如下:

很多人认为,P值等于 0.05 说明,你的假设理论(那个你真正想要验证的假设理论,而非零假设)有 95% 的可能性是真的,但事实并非如此。这P值只代表了你实现最终结果的概率,但它需要一个大前提,即你的零假设以及所有其他的假定命题都得是成立的。

P值不仅不能告诉我们要证明的某个假设理论是否为真,除非我们能百分之百确保每一个用作计算的假定条件都是正确的,否则它甚至和假设理论没有任何特定联系,而这正是太多研究所缺乏的。”在《美国统计学人》(The American Statistician)杂志中,一些科学家因为担心P值被过度滥用而如此写道。

所以,归根到底,尽管 P值是非常有用的工具,但人们很容易错误地使用它。因为它并没有那么理想,也不能够直接回答“一个实验结果或临床试验是否有统计学显著性”这样的问题,可是非专业人士就喜欢这么想。正因为如此,如果你开始研究造成“假阳性”结果和其他错误的因素时,我可以告诉你,一般来说,一个常规的健康相关试验,如果在准确性的正常范围内操作、并产生“阳性”结果的情况下,

P 值为 0.05 或 1/20 其实是不正常的,正确的P值更接近 1/3 。

这听起来可能很疯狂,但是别忘了,统计学家 John Ioannidis 曾研究过在主流期刊上发表的高引用率科学文献,他得到的结果更糟:接近 40% 的研究结果被证明是错误的。所以,拿这些东西指导我们的生活?算了吧。

近4成经过同行评审的营养健康研究是错的,到底出了什么问题?

更好的 P 值,还是取代它的工具?

实话实说,统计学领域几十年前就意识到这个问题了。我在前文中引用的《美国统计学人》声明就已经强调,用 P值衡量假设理论的正确性是一种非常普遍的错误。那篇文章提供了一些替代性的选择,因为过于技术性,在这里就不详述了。但无论是什么办法,都会需要成百上千的研究人员和各学术期刊齐心协力,更认真地对待科研中的统计学部分。即使是这样,也要花上几十年才可能实现。

那我们该怎么办呢?

今年 1 月,72 位统计学界的著名学者向《自然-人类行为》杂志提交了一份提议。提议认为,既然我们不能很快地(也可能永远不能)消灭基于 P值的零假设检验,那么我们至少要设定一个更合理的P值——用 0.005 来代替 0.05,P值处于这两个值之间的研究结果只能被称为“有启发性的”(这个建议主要针对最新发现。跟踪性研究要求知识更加复杂,应该区别对待)。作者们说,应该要把“假阳性”概率降低到 5%——这个数值就是我们之前用P

=0.05 时认为我们会得到的假阳性概率。今年 4 月,John Ioannidis 在《美国医学会杂志》(Journal of the American Medical Association)上发表上述观点。这个解决方法虽然只是暂时性的,但是也是必要的。

这是个好办法,但要花上几十年来实施。那么我们之后该怎么做?

科学家们和各期刊会在他们接下来的医学健康(及营养学)研究中采取这个简单直接的方法吗?让我们拭目以待。有几家已经这样做了,一些专科医生甚至已经开始使用更加严苛的标准。比如群体基因组学开始用 0.00000005 作为分界值。

跟着我说:我不在乎

我很确定,这 72 名统计学家提出的建议是针对科学家和学术期刊的。但在他们做到这一点之前,我们也许也可以亲自采用一下这个建议。

这个时候,让我们回头看看最开始找到的三篇论文:

• 食用西梅能帮助患有骨质疏松的老年女性预防骨密度的降低。P< 0.05,有启发性,但不够显著。不感兴趣。


巧克力改善脑电波?他们关注了多种脑电波,最强的统计关联值为 0.01,但他们只有四个被试对象。不感兴趣。


• 给婴儿喂食猪肉泥会使婴儿长更高?这个比较棘手。P值等于 0.001,所以看起来真的是可能会有点什么。但是婴儿长得更高有什么意义吗?科学家们如果想要继续这个研究,就请说明一下它的结果既具有统计学显著性,而且也有现实意义。

要澄清的一点是,并不是任何 P值大于 0.005 的研究结果都是错的,这种观点也是不对的。随着时间的推进,科学研究将会使用更加复杂的统计学分析,这会使P< 0.005 这一策略失效(记住这点,后面我们会让你跟上这个思路的)。

与此同时,你当然是想吃什么就吃什么,这篇文章的重点不是要劝你不要吃西梅和巧克力,然后给你的宝宝多吃猪肉泥。想吃就吃,享受食物带给你的慰藉效果,没准你会吃得很开心。但是,

一定不要把这些研究当成终极真理。他们可能只是去往真理的一步,但在多数情况下,整段行程仍将是漫长而难以预料的

近4成经过同行评审的营养健康研究是错的,到底出了什么问题?

而你要做的,就是接受这样的现实,忽略掉大部分你读到的营养学研究。记者需要找到更有趣更严谨的题材才能套路你,大学出版社需要发掘更吸引人的新闻主题,而你再也不会被那些美食博主和电视医生的花言巧语所愚弄。除非你看到了那个 0.005,在这之前,请你保持冷静,坚定如磐石

这个标准听起来有点严格,但是这是为了科学。你同意吗?

原文链接:

https://newfoodeconomy.org/nutrition-research-statistics-problem/

-END-

关注Science公众号,后台回复【Endnote礼包】【Origin礼包】即可领取相应Endnote安装包Origin安装包!更多精彩,点击阅读原文即可了解!


分享到:


相關文章: