常見錯誤釀成大錯!十幾項醫學研究“化為徒勞”

全文共2135字,预计学习时长7分钟


常见错误酿成大错!十几项医学研究“化为徒劳”

图源:unsplash


婴儿的高死亡率牵动着每个人的心。在美国,每十个婴儿中就有一个早产儿,而这正是造成婴儿死亡的主要原因。


Gilles Vandewiele发现,大量研究被报道可近乎完美地预测准妈妈是否早产。这令他震惊,如果可以准确预测准妈妈是否会早产,就能做好准备来减少早产并发症的风险。


但是事实证明,这种预测是极难实现的。对妇科医生来说,要想确认一名准妈妈是否早产,他们必须要考虑大量难以处理的风险因素,包括空气污染、家庭暴力、紧张等。迄今为止专家尚未能理解大量潜在威胁因素间复杂的相互作用。


常见错误酿成大错!十几项医学研究“化为徒劳”

图源:unsplash


如今在AI的帮助下,研究人员已经解开了这个谜题。根特大学机器学习专业的一名博士生Vandewiele招募同学,满怀热情地准备开始复制这些令人难以置信的结果。


但他不知道的是,他们正在踏上一条科学毁灭之旅,并导致了几乎十多篇经过同行评议的论文前功尽弃。


数据是任何机器学习系统的基石。需要大量相关案例来教授算法,使其做出精准预测。这些案例的合集被称为数据集。


Vandewiele发现,所有结果优异的研究都是基于流行的Term-PretermEHG数据集。它包含几百条记录,每一条对应一次生产记录。每条记录又包含有以下临床变量,如产科医生诊断时母亲的年龄和体重、临产前的周数以及放在准妈妈腹部的电极所测量的电子信号。


常见错误酿成大错!十几项医学研究“化为徒劳”

图源:unsplash


一般来说,医疗数据集具有敏感性,原始研究外的第三方研究人员难以获取相关信息。这使生育相关的研究工作变得极为复杂,甚至难以开展。你可以想象当Vandewiele团队发现必要的数据集公开可用时,他们该有多快乐。


数据下载后就可以输入到研究文章所说的可预测模型中了。理想情况下,科学家的代码库应该是开源的,那么这项工作就相当于运行一些现有脚本。


但不幸的是,在人工智能领域,研究者将代码库视为私有的做法十分普遍。


然而Vandewiele没有退缩。他们找到研究结果优异的文章,全盘复制其方法。但当他们最终运行分析时,奇怪的事情发生了——他们得到的结果明显比文中结果要差得多。这些预测仅仅比随机的好一点点!


“一定是我们哪里做错了。”然而,他们花费数天再三验证每一行代码,却一无所获。最终,挫败感战胜了好奇心,跳过这篇开始下一篇文章吧。


常见错误酿成大错!十几项医学研究“化为徒劳”

图源:unsplash


但同样,系统运行结果要比文中的结果差得多。这是怎么回事呢?


这个团队简直要疯了,他们进入了野兽模式,分成两队不断地进行文章的验证。然而结果还是一样,没有一次能够实现、甚至接近文章里所说的近乎完美的准确性。


他们似乎陷入了一场希腊式悲剧,把大石头推向山顶,快要成功时,这块无情的大石头却偏要折磨他们,掉头滚下了山。


几个月来,他们不断重复这11项繁重的复制工作,却始终没有成果。终于就当他们要放弃的时候,研究迎来了突破。


Vandewiele团队仅仅对输入机器学习模型的数据组织形式做了一个不起眼的改变,就得到了与原始研究相同的结果。但关键问题是:这样的数据处理方式从根本上来说是有缺陷的。


为了解开这个谜题,我们需要仔细研究构建机器学习系统背后的研究方法。


常见错误酿成大错!十几项医学研究“化为徒劳”

图源:thetimes


归纳是人工智能的核心。对一个模型进行输入训练,若该模型的输入是母亲的年龄与体重,已知期望的输出为临产前的周数,那么它应该能归纳其他新的、从未出现过的输入组合。


这个算法就像学生在考试时把答案填进答题纸,考试题目类似但不完全相同。


相应的,机器学习中所使用的数据集被一分为二。一部分是训练集,用于教授算法;另一部分是测试集,用于测试模型对任务本质的理解程度。


显然,任何称职的研究者都知道,这两个数据集之间不能有交集,这一点至关重要。


除了将数据集一分为二,研究者还要确保对于不同类型的输出包含有相当数量的记录。就好像学生要想在一场考试中取得好成绩,不同类型的题目他都得练够相当数量。一名只研究积分的、初出茅庐的数学家是不能在导数领域取得优异成绩的。


常见错误酿成大错!十几项医学研究“化为徒劳”

图源:mcai


然而众所周知,医疗数据集是极度不平衡的。Term-PretermEHG数据集也不例外,它所包含的定期分娩记录几乎达到了早产记录的7倍。


为了补偿这种比例失调,科学家将少数类对应的数据点的副本添加到原始的不平衡的数据集中。这个过程叫做过采样。


令Vandewiele团队感到惊讶的是,他们发现这些得到优异结果的作者在把数据集一分为二之前执行了过采样操作。因为分隔操作是随机的,这就导致了相同数据点被同时划分到了训练集和测试集中,并带来了毁灭性的副作用。


实际上,这些模型在测试之前就已经看过这些问题了!它们的测试结果很好也就不足为奇了。


这种错误显而易见,但却是在数据科学家中间普遍存在的。Kaggle的联合创始人BenHamner称,这次从训练集到测试集的意外信息“泄露”是公司面临的“头号挑战”。


常见错误酿成大错!十几项医学研究“化为徒劳”

图源:unsplash


Vandewiele 说:“包括我在内,许多人都曾犯过同样的错误。我认为,一名优秀的ML研究人员,应该始终对近乎完美的结果保持怀疑。”


Vandewiele还建议,随着算法逐渐开始统治我们生活中更重要的部分,我们需要确保管理这些系统的专业人员担负起应尽的责任。


处理医疗数据的分析人员需要进行更多训练,否则就是在拿无辜的生命冒险。


常见错误酿成大错!十几项医学研究“化为徒劳”

留言点赞关注

我们一起分享AI学习与发展的干货

如转载,请后台留言,遵守转载规范


分享到:


相關文章: