眼花缭乱的疫情预测模型,到底哪个说了算?

新型肺炎疫情爆发以来,很多科研机构、企业纷纷通过构建数学模型来预测病毒的感染规模、传播风险、死亡率等。但是,很多模型的预测结果与实际情况存在较大的差别。


曾经发表在《柳叶刀》的一篇研究文章的模型预测显示,2月初中国感染患者将达到16万人,但事实上,中国的确诊总数在八万人左右。那么,影响模型准确性的因素有哪些?一个好的COVID-19模型需要考虑哪些因素?


近日,发表在FiveThirtyEight 的一篇文章对此做了解释。


FiveThirtyEight 是成立于2008年的一个新闻网站,因通过棒球比赛数据成功预测出奥巴马将赢得美国总统大选而成为人们关注的焦点。


眼花缭乱的疫情预测模型,到底哪个说了算?


疫情大流行时,每个人都想知道,情况到底会有多糟,还要被关多久等,考虑专家到已经对新冠病毒做了大量研究和数据收集,答案似乎应该存在。


但问题是,答案到处都是。


例如,据《纽约时报》报道,美国疾病控制与预防中心使用的模型,其预测结果是将有20万美国人死亡。同时,伦敦帝国理工学院的一份报告以其模型所得的可怕预测成为头条新闻——如果没有人改变其日常行为,该报告预测约有220万人死于冠状病毒。

坦率地说,这种扩散是惊人的——疫情的死亡人数与美国每年因伤亡和暴力而丧生的人数相当。换句话说,这是我们日常生活与国家改变的数字之间的差异。


使用数学模型来预测未来对专家来说是有价值的,即使结果存在巨大差异。但是,要了解这些结果及其它们的变化并不容易,况且还会伤害到人们的身体。这就是为什么我们要谈论流行病模型的组成部分。希望通过了解不确定性以帮助你从众多数字中得到有用的信息。

想象一个简单的数学模型来预测冠状病毒的结果,死亡人数取决于有多少人会被感染、病毒如何传播、以及死亡人数。

眼花缭乱的疫情预测模型,到底哪个说了算?


每个变量都依赖于大量选择和知识差异。如果模型的每个部分都是不稳定的,那么这个模型就会像数据记者一样,在电话会议上花了太多时间,下班后被社会孤立。

考虑一些基本的东西,比如数据输入,不同的国家和地区收集数据的方式不同的。没有一份每个人可填写的电子表格能让我们轻松地比较世界各地的病例和死亡。医生说,即使在美国境内,我们也未充分报告因COVID-19导致的死亡总数。

同样的矛盾也适用于接受测试的人。在一些国家,有些想要进行测试的人便可测试,而其他人就难说了。这影响了我们了解实际上COVID-19的感染人数,以及有多少人的检测结果呈阳性。

而且,新冠病毒本身是一种无法预测的传染病,对某些群体的伤害要大于对其他群体,这意味着,就病毒对社区的影响而言,当地的人口统计学和医保的普及度将是决定性因素。

俄亥俄州立大学流行病学教授比尔·米勒博士说:“作为公共卫生人员,我们经常在黑暗中摸索前行,试图用不确定的信息来做出最佳估计。”

因此,让我们探索一下,以了解为不确定事物建立好模型为何如此困难。


死亡率


眼花缭乱的疫情预测模型,到底哪个说了算?

一些人死于COVID-19,但是 “一些” 不是一个数字,不能用它来计算。

问题是,病毒的致死率从一开始就是模糊的,它可能因群组而异。“因为年龄是一个巨大的因素,你必须根据美国的人口构成来调整致死率加州大学旧金山分校的生物统计学家雷·万尼尔(说。(合并症是其他潜在的疾病和或许发生的情况,可能加重COVID-19感染者的病情)

换句话说,并没有单一的“致死率”,疫情在美国的死亡率与糖尿病发病率较低的国家不同,如果病毒在一个老年人居多的城市传播,那么,这个城市的死亡率将比在疫情更严重但年轻人居多的城市要高。

知道中国或意大利的COVID-19的致死率,能告诉我们美国的致死率是多少吗?这当然有帮助,但也只是降低了不确定性,并不能使事情变得确定。

当然,出于多种原因,我们可能不知道这些地方的实际死亡率。首先是要收集有关冠状病毒病例的基本数据,数字不是事实,它们是许多主观选择的结果,在开始考虑将其视为事实之前,必须对这些主观选择的数据进行透明和详细的记录。如何收集数据以及每次是否以相同的方式收集数据都很重要。

还存在没有收集或数据不准确的问题。要确定致死率,你必须用该疾病的死亡人数除以感染人数。在这种情况下,我们并没有一个可靠的感染人数统计,从数学上来说,我们不知道分母(老实说,我们可能也不知道分子)。


眼花缭乱的疫情预测模型,到底哪个说了算?

Diamond Princess游轮上的数千名乘客接受了COVID-19的测试。出现的数据可以告诉我们其他人的感染率和死亡率,但这并不是完美的对照,因为并不是所有人都住在游轮上。

在理想情况下,我们会对每个人进行检测,以确定他们是否感染了这种新型冠状病毒,这样就能确切地知道有多少人被感染,又有多少人因此而死亡。不过,只有在少数情况下,这种情况才有可能发生。


以钻石公主号(Diamond Princess)为例,这艘邮轮在爆发致命传染病后被隔离。几乎船上所有人都接受了检测(3,711人中的3,063个样本)。钻石公主成了实验室,拥有了在现实世界中通常不会有的数据记录条件。研究人员不仅发现了多少人患有这种疾病,还发现了多少人完全没有症状——如果他们在陆地上,很可能就不会被检测、诊断和统计。

这一不寻常情况的表明,有很多人不知道COVID-19的存在,因此,死亡率比其他数据显示的要低。在钻石公主人群中,有诊断和症状的人的死亡率为2.3%,但所有确诊病例(包括无症状感染者)的死亡率为1.2%。


在冰岛,一家名为deCODE Genetics的公司于3月13日开始向普通人提供免费检查。截至3月29日,deCODE在8694项测试样本中确认了71名感染者,其中包括无症状感染。

与此同时,出现症状的比率(有症状与无症状的人数比)是一个大问题,我们现在只是猜测。伦敦帝国理工学院(Imperial College London)的报告假设,三分之二的病例都出现了症状,感染者会注意到并自我隔离。来自钻石公主的数据发现,一半的病例在诊断时都是有症状的。出现症状的比率实际上会改变死亡率的计算。

钻石公主的数据并不完美——他们并没有对所有人进行测试,游轮的人口统计数据不能代表更广泛的人群,一些生病的乘客可能仍然会死亡,这将增加死亡率。但你在陆地上找不到更可靠的数据。冰岛的数据还未公布。

在美国,这种广泛的测试才刚刚开始,这确实很重要。如果像某些州一样主要检测病人,则致死率将无法反映该病毒的实际致死率 (分母的问题又出现了)。

此外,美国的检测还受到其他问题的困扰,比如总体上缺乏可用的检测手,以及一些私人实验室不提供阴性检测结果的数量。

一旦某人病重,我们的预防死亡能力也会影响该疾病的真正死亡率。这取决于医院的能力。由于可以无限制地使用重症监护病房的病床和呼吸机,许多即使有严重症状的人也能在感染中存活下来。


但这些资源相对稀缺,一旦需求超过供应,那些本来可以靠呼吸机存活下来的人很可能会死亡(在美国的一些地方已经出现),这可能会产生连锁反应。因为其他事故或紧急情况寻求治疗的人也可能会受到医院资源匮乏的困扰,而他们本来可以避免死。即使是与COVID-19无关的死亡,也会增加总死亡人数,即使这些没有被计入COVID-19的死亡人数。

Wannier说:“无论我们最终是否会看到供应和人员短缺,都将极大地影响死亡人数,目前还不清楚我们的医疗体系的弹性程度。”


感染率


眼花缭乱的疫情预测模型,到底哪个说了算?

几乎所有关于死亡率的内容也适用于感染率:所有的估计都将受到数据收集、抽样和症状率的影响。但是要知道感染率,你还得弄清楚病毒从一个人传染给另一个人的频率。(你可能听说过basic reproduction number这个词,它指一个种群中每个感染者的可以传染的平均人数,在这个种群中每个人都容易感染这种疾病。)

事情是这样的:传播可能是多变的,取决于各种社会行为、当地环境细节和政治决定。从一个国家到另一个国家是不一样的。从一个状态到另一个状态可能是不一样的。它会随着时间的推移而改变,这取决于我们采取什么行动来对抗病毒。例如,在有大量死水的地方。疟疾会有更高的繁殖数量。

因此,模拟冠状病毒的潜在结果意味着要尝试许多不同的传播情景。不过,即使这样也不是准确的,它们更像是一个估计范围,估计范围中存在变量,而每个变量本身都是变量。

第一个变量是接触率——基本上是一个感染者在给定时间内与多少人发生接触。这是人们唯一能控制的事情,这也是为什么每个人都要待在室内,谈论社交距离。

平均接触率并不统一——人与人之间的接触率是不同的,这取决于他们的生活状况和工作等因素,还取决于公共卫生干预措施和地点。

然后是每次接触的传播速率。这只是思考会有多少人会被感染者感染的方式。它也是一个移动的目标。病毒不会以一种有序的,每人两个新病例的方式传播。相反,感染往往以不均衡的速度发生。

美国东北大学(Northeastern University)传染病模型专家萨姆•斯卡皮诺(Sam Scarpino)将这些事件称为“超级传播者事件”——即某些因素(通常与地点有关,而非与人本身)突然增加病例数量的情况。

一些人认为无症状携带者的传染性比有症状的人要低,所以这个比例也影响了传播率。

当你试图计算每次接触的传播时,病毒生物学也很重要。这包括病毒在一个表面能存活多久(以及它在哪个表面着陆),以及它能在传播多远。

对于这种新型冠状病毒,目前对这两种因素都存在。同时,新冠病毒与人的体质差异和个人行为也有关系。


例如,吸烟者可能更容易受到病毒感染和并发症的危险。尽管这很大程度上与吸烟对肺部的影响以及病毒一旦进入人体后的行为有关,但其中一些原因还可能是由于当前的吸烟者将手靠近嘴巴的距离和频率都高于普通人,增加了传播的危险。

最后,还有传染的持续时间,即一个人将病毒传播给他人需要多长时间、疾病发展的过程中,什么时候具有传染性的?俄亥俄州立大学(Ohio State University)生态、流行病学和人口健康项目主任马克·威尔(Mark Weir)说,这与病毒生物学和个体免疫系统有关。

所有这些参数都用来估计R0,即病毒的基本繁殖数量。

虽然基本繁殖数量假设整个种群都是易感的,但还有一个有效的繁殖数,它取决于种群中有多少人是易感的。将众多人视为易感人群的原因之一是新型冠状病毒就是新型病毒,以前没人得过。

一个好的模型还需要考虑再次感染的问题:如果康复的人具有免疫力,那么易感人群就会减少。但是到目前为止,我们对这种病毒感染后的免疫还知之甚少。

将所有变量放在一个模型

为了建立一个模型,你必须汇集所有变量,考虑它们的不确定性、相互关系以及其他各种因素。

所有这些因素都可能受到为减少病毒传播所采取的干预措施的影响——疏远社交、洗手、关闭学校、减少选择性手术等等。这是一未知因素,可能会极大地改变疫情,但它也会因国家、州的不同而不同。

眼花缭乱的疫情预测模型,到底哪个说了算?

就像做馅饼一样,如果有食谱,便可以轻松地完成,并期望得到可预见的结果。但是,如果食谱中有诸如“根据实际情况,加入3到15个切碎的苹果、牛排或甘蓝”之类的表述,那就会影响到这个派的味道,不是吗?


你可以假设正确的成分和它们的数量。但这些都是假设,而不是绝对的事实。如果你在烤派的过程中做了太多的假设,你很可能会得到完全不同于你原本要做的东西,而且你不一定知道你做错了。

在接下来的几个月里,你将看到很多关于COVID-19的结果预测。它们基于假设,但并不等于毫无价值。

Weir说:“所有的模型都是错的,我们正在努力减少它们的错误,让它们更实用。”

原文链接:

https://fivethirtyeight.com/features/why-its-so-freaking-hard-to-make-a-good-covid-19-model/


眼花缭乱的疫情预测模型,到底哪个说了算?


分享到:


相關文章: