IBM 沃森:被辜负的期望

太完美以至于显得不真实?嗯……那它可能不是真实的。

IBM 沃森如今就面临如此窘境。这款人工智能的技术在临床上曾被大范围推广,被用于辅助医生进行理想癌症方案的选择。

然而,许多其推荐的癌症治疗方案被证明并不可靠。来自 STAT 的最新报道表示,沃森应用于临床,目前时机尚未成熟。STAT 获取了 IBM 的内部资料,显示在沃森向全球的医院和医生大力推广其超级电脑的同时,公司内部收到了来自专家和客户的举报,称多个案例表明“沃森做出了不安全或不正确的治疗推荐”。

这项报告无疑给肿瘤学家在像沃森寻求帮助时增添了些许犹豫。

新的生物标记和变异层出不穷,而眼花缭乱的新治疗方案喷涌而至。这样的现状下,抉择出最佳的癌症方案需要大量的时间。而沃森却在其中显示出了强劲的势头。最近的一个报道称,这个超级电脑显著的加快了分析全基因组的速度,相比于一队专家要花费平均 160 小时的分析,沃森只需要 10 分钟便能得出结论——这突破了基因组分析的瓶颈时长。

(图源:麻省理工科技评论)

然而在现实的应用中,沃森还有很大的差距。一部分原因来源于训练集的选择上。IBM 的内部文件把责任怪罪于来自纽约市斯隆卡特灵癌症中心的工程师和肿瘤专家们,这些专家自 2012 年起就被委任进行沃森的训练工作。数据并非来自于真实的病例,而是冗杂了合成病例和假想的病例。因此,沃森的训练过程建立在部分专家有局限的认知和特定种类的癌症上,而非指南或真实世界证据。

然而,IBM 网站上却依然显示着沃森在持续利用真实病人数据做训练:“来自于历史上数千个真实案例和斯隆卡特零癌症中心专家们贡献的数千小时。”然而,从肺癌的 635 个病例至卵巢癌的 106 个案例,沃森涵盖的 8 种癌症实际上被训练的数据很少。

华尔街日报也发表了相似的意见。在很多个案例中,沃森并没有给医生带来很多帮助,而有些案例中,沃森给出的结果甚至是错误的。除了训练集的不足外,另一个造成这种差距的原因是沃森的更新赶不上治疗方案改良的速度,因为它无法获得最新方案治疗的病例,而是被迫周旋于陈旧的病例。同时,至今没有发表的研究显示沃森能够改进病人的预后。

沃森基因进入了多个美国癌症中心,但根据华尔街日报,几个中心的多位医生表示,沃森的结果并不准确,而即使准确,也并不能增加医生的进一步见解。

(图源:麻省理工科技评论)

“我的问题在于——并且我相信其他人也存在这样的问题——就是你永远也不会知道通过这个工具,你会得到的是什么……你不知道该对它投入多少信心。”Lukas Wartman,华盛顿大学的麦克唐纳基因组研究中心的医生表示。他说即使他在医院有免费的访问权,他也很少用。

IBM 的回应

IBM 官方声明不认可这种观点。公司尤其针对华尔街日报的文章作出了回应。

IBM 官网发表了一篇名为“沃森健康:客观的谈谈问题”的文章,由 IBM 的副总裁,负责认知方案和 IBM 研究部门的医学博士 Jone E. Kelly III 所撰写。他对于文章中提到的 IBM 作为人工智能领先产品,并未对医疗领域的进步作出足够的贡献表示反对。

“正如同文章所讲,我们确实让 IBM 在健康领域下了一个很大的赌注。”Kelly 写到。他说 IBM 之所以这么做有两个原因:“人工智能能在解决医疗问题和健康产业发展上做出很大的变革,”他还提到“随着人工智能的发展,极大的商业机会将诞生。”Kelly 尤其列举出,IBM 研发了三个不同的癌症工具:

沃森肿瘤,辅助肿瘤医生提供额外的治疗建议;

沃森临床试验匹配,帮助病人匹配到疾病相关的临床试验;

沃森基因,利用基因测序技术为癌症病人设置个体化治疗方案。

“加起来,沃森在全球 230 家医院和医疗机构投入使用,沃森帮助的病人在本年度上半年几乎翻倍,达到了 84000 人,”他写到。

对于报道中提到的沃森对病人无益,Kelly 也进行了申辩。“华尔街日报能发出这样的言论,是在忽视全球一定数量的医生和机构已公开的正面评论——并且我相信这些评论出自本心。”以下是 Kelly 列举的表示认可的评论:

梅奥诊所的医生在美国临床肿瘤协会年会上展示了一张海报,报告了沃森临床试验匹配在投入使用的 18 个月期间,为乳腺癌临床试验提升了 80% 的参与度,从 3.5 个病人/月达到了 6.3 个病人/月。

Thaddeus Beck,阿肯色州的高原肿瘤组的医生,报告了沃森临床试验匹配降低了 78% 临床试验的匹配时间。

Mark Kris,斯隆凯特琳癌症纪念中心的肿瘤学家,帮助沃森实现了 13 种癌症的训练,癌症种类涵盖全球发病率和患病率的 80% 的癌症。

S.P. Somashekhar,印度曼尼帕大学的医生,在今年早期的肿瘤学年鉴赏报告了沃森在诊断乳腺癌上 93% 的准确性。他最近声明,其多学科肿瘤委员会在多种疑难杂症的案例中应用沃森肿瘤,并在 9%-11% 的案例中采用了沃森肿瘤给出的建议。

Michael Kelly,退伍军人事务部最近延续了与沃森基因的合约。因此目前为止,将近 3000 名患 IV 期癌症的退伍老兵因此技术而获益。

William Kim,北卡罗来纳大学莱茵伯格癌症中心的医学博士,报告了沃森基因在 32% 的病人中发现了新的、有实际价值的变异。

肿瘤学家的困境

那么,肿瘤学家应该如何面对超级电脑提供的额外信息呢?

对于这个问题,Nigam Shah,斯坦福大学生物医学数据科学系的副教授表示,如果沃森系统的训练不是采用了真实的数据,那么这个问题就没什么值得争论的。

“如果我是一个肿瘤学家,我希望能够机器和医生做出医疗干预时效果至少是相同的,这可以用预先设计的实验来判断。”Shah 告诉 Medscape 医疗新闻。

举个例子来说明,他建议可以先让电脑跑一遍一个医疗中心所具有的所有真实病例,再与医生所给出的治疗方案做对比。如果实验证明沃森给出的方案具备足够的安全性,那么证明沃森可以投入临床使用——但这只是第一步。下一步,我们再采用随机试验来判断采用沃森方案的预后,和医生相比,是否效果更好。

但是,他反复重申道,如果现在他是一个在职临床医生,“我会屏蔽所有噪音,等有实在证据,来判断沃森好坏再做出决定。”

Shah 补充道,IBM 沃森应该明确公开用做训练集的数据。“任何人工智能系统的好坏都离不开数据集,”他解释道。“如果一个系统是依靠小部分医生决定的带有局限的理想化数据,那么对外宣传训练集来自斯隆凯特灵癌症纪念中心的真实数据是非常不负责任的行为。”

与此同时,Michael Hogarth 是加州大学的一名生物信息教授,他说即使他不是一名法律专家,他也确信在人工智能系统使用过程中,系统的使用者应该对后果负全责,而系统本身不应负法律责任。

“这和一名医生一句教科书做出了错误的诊断没有区别,”他解释道。“最终,医生永远是那个负责的人,他们不能把自己的错误怪罪到一台电脑、一篇文章或一本书身上。”

Hogarth 注意到,在起初 IBM 声明沃森可以提升肿瘤专家的决策时,他和其他卫生信息学家们就表示怀疑。本质上,沃森要帮助的是具备一定专业性的中高级医生,比如说肿瘤学家是该领域的专家,一些人甚至为“超级专家”,专门精通肿瘤学中的特定病情。这样的专家在健康领域中非常常见——但事实上,更多的报道见于这种临床辅助工具只对非专家者提供了帮助,后者包括全科医生、家庭医生等。

“当一个医生越倾向于“全科”时,关注于特定领域的辅助工具——比如说沃森肿瘤,越有可能提供给医生他们不了解的信息,”Hogarth 解释道。“但是,对于专家来讲,患者的全身病情中的‘杂音’对于医生做出诊断的干扰越少,医生越能做出更精确的诊断,因为他们不需要顾及其专业领域之外的状况。”

Hogarth 补充道,最令人担忧的事情是随着机器学习的热度上涨,越来越多的这类软件被用于人们的“枕边诊疗”,病人在家中不通过医生,而是通过未经检验的应用草率得出结论。“重点在于确认这些工具的安全性,”他强调。“很多工具的数据集来自于电子记录,在这其中很多数据是不完善的,因为病人在多家、或许质量层次不齐的医院接受过诊治,而没有一家医院有病人完备的档案。”

(图源:麻省理工科技评论)

人们逐渐开始讨论针对机器学习程序进行安全性确认一事。“讨论前根本问题应放在,是否应该把这类工具规范为医疗设备,”Hogarth 说。

同时,另一位专家表明沃森的数据集来源也同样值得人们注意。“鉴于完全是由斯隆凯特灵癌症纪念中心的医生们在训练沃森,沃森接受的数据和真实规范的治疗方案相比可能含有巨大的偏差,”David H. Gorski,韦恩州立大学医学院的乳腺外科医生表示。

“这提示着,沃森在诊断上可能出现偏差,因为每一个医生再做出治疗方案上,都多多少少带有个人的习惯和趋向,这也是为什么不同的医生会对同一病情有所争执。”他补充道,这也是一个更广阔的训练平台的重要性。“最终,沃森只是一个工具,它有所有医学设备都具备的一定瑕疵,使用的医生应该被告知如何把瑕疵考量在内。”

“如果一个医生时刻记得它的工具性,并不畏惧否定它的结论,那么潜在层面,它的安全性一定可以保障,”Gorski 说。

实际尚未成熟

STAT 在 2017 年九月发布了针对沃森的问题。报告称沃森“还在第一步——鉴别癌症的种类中艰难着。只有为数不多的几家医院采用了沃森系统,这离 IBM 要占有数亿美元的市场的目标遥不可及。”

文章中提供了多方利益相关者的观点,包括医生、IBM 执行方和人工智能专家。报告也评估了沃森全球范围内的使用、市场和医院内表现。采访展示了这样的局面“IBM,为了支撑着其萎靡不振的收入,在未做好全面的风险评估下就慌忙的把产品投向市场,”作为结果,“太多瑕疵暴露在专业的医生和研究者面前,让后两者表示整个产品很不成熟,即使它在某些方面具有一定革新性。”

“沃森肿瘤还在蹒跚学步期,我们不应放弃它,而是应该等待并积极参与,希望能帮助它更健康的成熟,”Taewoo Kang 是一位韩国的肿瘤专家,他本人也是沃森的使用者。

今年早期,IBM 确认了公司的入不敷出,但是否认了健康部门裁员 50%-70% 一说。IBM 并未公布其实际的裁员数。

“IBM 依然在重新调整部门架构,希望能着重关注 IT 市场高价值的前沿科技,我们也在持续的招募关键领域的人才,希望能为我们的客户创造价值。随着公司持续以科技为导向,简化流程,前两者会自动的驱动发展,公司目前的停滞只会让小部分员工受影响。”IBM 在今年早期发表声明。

Hogarth 在一次访谈中表示:“我理解 IBM 对很多科技人员进行了裁员,因为我认为 IBM 发现事情并非他们想象的那么容易。实际的决策制定并非儿戏……它是很多因素的总和。”

Hogarth 认为如果 IBM 当初设立了一个更现实的计划,它可能会达成它。IBM 对沃森健康的期望太高,这可能会导致公司用错了力。“他们或许应该把沃森的定位放在辅助全科医生、家庭医生或者其他中低级医生上,或者帮助那些疑难杂症的患者——而非试图让机器和肿瘤专家平起平坐,”他说。“只有这样,沃森这样的机器才能在目前提供潜在价值。”

IBM 最近报道称其会考虑沃森软件使用时的地域差异。沃森肿瘤在亚洲有最大的市场,目前应用沃森的医院大多位于美国外。一些医生抱怨,沃森的诊断并不符合当地的指南,并表达了对于美国中心主义的不满。

在一个沃森健康内部的全球员工大会上,IBM 宣布它将首次开始使用真实病人数据,这个数据的使用会使沃森提供更全面细致的诊断方案。