03.04 郭毅可:用数据说话,疫情的发展我们完全可以未卜先知


郭毅可:用数据说话,疫情的发展我们完全可以未卜先知

高小山说

高山大学(GASA)是一所以“科学复兴”为愿景,以“没有受教,求知探索”为校训,致力于培养企业家科学精神的新型大学。此次疫情突发,高山大学希望能够真诚地团结、组织高山大学的导师和学员,为大众做一些有价值、有温度的事情。

为此,高山大学联合更新学堂,特邀请高山大学导师,从不同角度在线为大家进行公益科普。从2020年1月29日开始到现在,直播已进行了11期,在线学习人次达942万。

从本周开始,“科学公益直播”将在每周六上线,欢迎大家一起学习科学知识。

以下根据郭毅可教授2020年2月28日在高山大学和更新学堂联合出品的“科学公益直播”的课程整理而成,经老师审核后公开发布。

※全文6866字丨5分钟阅读

※整理丨张明


授课老师:郭毅可,英国皇家工程院院士、欧洲科学院院士、英国帝国理工大学教授、香港浸会大学副校长。

郭毅可:用数据说话,疫情的发展我们完全可以未卜先知

△郭毅可教授

一、数据科学对流行病学贡献巨大

数据科学在流行病疫情控制上的应用,当然不止是统计每天的疫情数据,它是理解流行病的传染特性,传染规律和控制策略的有效性的重要手段。

实际上流行病学本身是数据科学最重要的分支之一,数据科学对流行病学的贡献是巨大的。

流行性传染病的基本定义

传染病是指由特定的传染物(比如病毒、细菌),通过从受感体(人、动物、植物)直接或间接地传播给易感体,使易感体被传染的疾病。传染病有两个基本特点:

①患病率影响发病率,患病率越高,发病率就越高,一个病例就可能是一个危险因素。

②流行性传染病最大的特点是有感染的概率,这和人与人之间的接触模式是密切相关的。

流行病学就是研究传染过程、传染规律的学科。流行病学在最近几十年里的研究很多,实际上它不仅仅是研究流行病的问题,也还有很多其他的应用。

有关流行的问题都可以用流行病学的方法来研究,比如市场的品牌效益、社交媒体里面消息的传播等等。

关于传染病,人们有一些常用词汇:

流行:指一个地区的患病病例突然超出正常的预期。一个地区只有几十个人患病的不是流行病,可突然涨到几千人就是问题了。

暴发:指疾病发病率局部突然上升。

地方病(Epidemic Disease):指在一定的地理区域或人群中经常存在的一种疾病或传染病。

大流行病(Pandemic Disease):指一种发生在非常广阔的地区,跨越国际边界,通常影响许多人的流行病。新冠肺炎就有这种特点,它有大流行的趋势。


流行病学的起源

流行病学起源于英国。19世纪中期,英国本土暴发了霍乱。当时英国的科学家、医生和政府官员对霍乱不了解,一筹莫展,眼看着疫情蔓延。

有医生观察到,病人分布常常是住在穷人区域里的比较多。卫生条件不好,恶臭的地方比较容易得病,医生就提议用除臭剂来阻止霍乱流行。更有官员提出要把恶臭的东西彻底清掉,扔进泰晤士河里。

清洗伦敦的运动发生在霍乱第一次暴发和第二次暴发之间,结果第二次暴发时死亡人数比第一次暴发多了3倍。

问题出在哪里呢?当时人们也做了很多观察,但是都没有对观察做统计意义上的分析。

当时,伦敦有一个非常有名的医生,约翰·斯诺,他做了和别人不太一样的调查。

斯诺走访了有家人因霍乱去世的家庭,了解有染病病人的家庭和没有染病的家庭的区别,并细致观察周围的环境;对比在同样状况下,感染霍乱的人和没有感染霍乱的人的区别,他们的生活条件、周边环境、生活方式有什么根本的不同,收集了很多数据。他针对这些对照比较的数据,来研究感染霍乱的主要决定性因素,并提出假设和进行验证。

当时在伦敦有许多家供水公司,同一地区的居民也可以选择不同的公司。斯诺调查时发现,在一个地区,使用供水公司A的家庭有1263人死于霍乱,而使用供水公司B的家庭则只有98人死于霍乱。

于是,他随机地各选择了1万户使用供水公司A和B的家庭,然后进行比较,结果使用供水公司A的家庭死亡率是使用供水公司B的家庭的8.5倍。

这样,他找到了霍乱暴发和水源的因果关系,提出解决霍乱暴发的方法:停止使用供水公司A的水。把伦敦苏荷区宽街与苏克莱星街交汇处的一处水井水泵的手柄拆除,不让大家喝这里的水。这个动作一下子就把伦敦霍乱的患病率降了下来。

郭毅可:用数据说话,疫情的发展我们完全可以未卜先知

纪念斯诺而保留的水泵和他当年调查绘制的地图,图自网络

斯诺发表了他的研究结果。30年之后,德国的微生物学家罗伯特·科赫发现霍乱的病原体“霍乱弧菌”,它是能够存活于水中的病菌,从而用科学证明了斯诺的假设。

回过头去看,人们认识到,供水公司A是在泰晤士河的下游取水,供水公司B则是在上游取水。上游没有受到市政府排污运动的影响;下游由于排污运动,政府在无意间创造了一个高效产生霍乱患者的社会环境,导致霍乱暴发。

斯诺通过比较两个人群组在统计意义上的不同,找出区分它们的关键因素,从而找到致病的原因,这个方法在统计学里叫做“假设检验”。

斯诺以此为基础创建了一门非常伟大的学科叫流行病学(Epidemiology),他也被称为“流行病学之父”。为了纪念他,宽街的那口水井的水泵一直保留到现在,水井对面的酒吧就叫“约翰·斯诺”。

流行病学就是数据的科学

流行病学一开始就是数据科学的驱动,今天的流行病学就是一个完整的数据科学。

流行病学研究要找到病原、病的生成期、潜伏期、传染性、严重性、确诊性、病毒传播的模式、风险分析、干预政策的设计和评估、疫情分析和预测。

流行病学的研究方法包括观察法、实验法、数理法都是以数据为基础的。斯诺做的产生假设、检验假设、验证假设都是统计学的基本思想。

流行病学中的数据科学不一定很复杂。举一个最简单、最现实也很经典的例子,就目前暴发的新冠肺炎,伦敦帝国理工学院做了一系列报告。

1月18日,伦敦帝国理工学院发表了第一份对武汉的疫情分析,这份报告影响很大,因为当时中国武汉确诊的病例是41例,但报告的预测是近4000。

这个预测是怎么做出来的呢?我们知道武汉的41例是已经确诊的,但我们并不知道到底有多少人被感染了。

我们可以知道的比较准确数据是离开武汉到了国外确诊的病例有7个,同时我们从国际航空报告里知道武汉每天有3300人出国,大概知道新冠病毒从发现到感染的平均时间是10天。

于是,我们把每天出国的3300人作为一个在武汉抽样的样本,患病周期是10天,所以总体样本空间有33000人,其中7人是确诊病例,这样就可以算出感染的概率(7/3300*10)。根据这个概率, 我们可以计算出武汉的感染人数。

武汉人口总数如果按照武汉及周边地区1900万人来算,估计被感染的有4030人。

如果只考虑武汉市居民900万人,估计被感染的有1909人。

这是非常粗略的估计,但它确实有统计学上的意义。

我们知道2月之前, 武汉病人从有症状,到确诊也要有10天左右的时间。那么, 我们来看看1月28日官方公布的数据:湖北省累计确诊病例3554例,其中武汉市1905例。

湖北省我们估算的结果多了一点,因为我们只算了1900万人,还不是整个湖北,加上实际还有未发现的病例,我们的估计是不错的。

而武汉市我们估算的是1909人,官方公布的是1905人。所以,这个简单的预测还是相当准的。

这样的统计在防疫上当然是很有意义的。它告诉我们这个地方有多少人已经得病了,他们马上就要来医院了。

这就为医疗资源的配置、准备,整个政策的制定争取了一段时间,这是传染病学预测非常重要的价值。


二、用流动的数据讲述生命

疫情每天都在变,不感染的人变成感染的人,感染的人治愈了或不幸去世了,每天都有非常动态的变化。

要掌握疫情的发展,特别是要了解很多的干预政策怎样去影响疫情的动态变化。就要建立流行病的动态模型(SIR模型),这又是非常重要的一个数据科学的问题。

何为流行病动态模型?

上个世纪20年代,有两位既是传染病学家也是物理学家的英国科学家科马克(W.O.Kermack)和马肯德莱克(A.G.Makenclrick),他们研究的流行病动态模型——SIR模型,就是把人群分为还未被感染的(易感人群,Susceptibles)、感染了的(传染人群,Infectives)、不再被/会感染的(免疫/死亡人群,封闭了的)三个群体之间的动态关系。

现在做的很多预测模型,千变万化,它们的基本点就是在刻画三个人群之间的动态变化的规律。研究这个规律,我们要看:

(1)从易感者(S)到感染者(I),这个叫感染的传播过程。我们要研究怎么样让易感者避免被感染,控制易感人群变成传染人群的速度,这和干预措施有很大关系。

(2)从感染者(I)到不传染(R), 或叫被移除。不传染有各种情况:

一部分是治好了,一般来说病毒性的疾病治好了就有免疫力,不会再被传染;一部分不幸死亡了,也不能再传染;

还有一部分我们能够有很好的办法隔离起来,比如方舱医院,让感染者不再传染别人,也可以算是被移除的。

研究这个动态模型,我们就看三个动态变化人群之间的关系:

①在给定时间(t)里,易感人群还有多少;

②被传染人群有多少(即已被感染并会传染的人数,我们每天报的疫情有确认的受感者,但报的是发现就诊的, 通常这只是真正受感染的很少的一部分);

③已经治愈的和死亡的数据有多少。这个数目比较确定。

创建动态系统数学模型

首先假设这个模型里每个人是在不断游走的,没有什么限制,接触概率是相同的。我们来研究在这样的环境里,传染病是怎么传播的。

然后开始有干预政策,不让人群那么自由的流动,减少人与人的接触,这样的模型就要做些改变。

在动态模型里,我们要找到感染速度、恢复速度等一系列特征量。

感染速度:S→I rate = b*StIt

感染速度(S→I rate),是描述易感者被感染的转换过程的特征。

这个感染速度与两个因素成正比:①被感染人群的大小;②易感人群大小。

所以,感染速度等于易感人群(St)与感染人群(It)的乘积,还要再乘上感染速率参数(b)。

感染速率参数与两个因素有关:

①与传染接触的概率有关。人群接触少的,参数就会小一点。艾滋病是靠性传染,传染接触的概率一般不大, 而新冠病毒是靠飞沫传染,传染接触的概率就大,要控制人与人的接触就难一些;

②与疾病传染性有关,也就是说,一旦接触后被感染的概率有多大,或者说病毒的传染性有多强。

恢复速度:I→R rate = a*It

恢复速度(I→R rate),就是从感染者到不再感染者的过程有多长,也是我们常说的传染期。

恢复速度取决于感染人群的数量(It),和它的大小成正比。

(a)是恢复速率参数,即如何让感染者不再传染。恢复速率参数与采取的措施有关,比如发现感染者及早完全隔离,切断传染,也和医治有关系,如找到有效的治疗方案。

有了相应的特征值后,我们就可以建立很好的流行病动态模型,研究三种人群之间动态的关系。实际上伦敦帝国理工学院的报告也是在这个基础上做的。

郭毅可:用数据说话,疫情的发展我们完全可以未卜先知

流行病动态模型基本是这样一条曲线:开始很多人是易感人群,慢慢这个人群减下来,因为都被感染了;感染人群慢慢上去了,到一定的地方出现拐点,因为没有那么多可以再感染的人群了;不被感染有很多因素,比如把人迁出去了,治愈的人变多了,建立方舱医院隔离了感染者;还有一种是什么都不做,这样拐点会被拖到很晚,很多人被感染,不过拐点总会出现的。

流行病动态模型曲线的变化要看采取的防治措施、整个的医疗水平和干预的方法。

郭毅可:用数据说话,疫情的发展我们完全可以未卜先知

我们现在经常会听到R0,即基本繁殖率,指每一个感染个体引发的平均新发感染人数。

R0>1,一个人传多人,感染传播开始流行;

R0=1, 一个人传一个人,感染保持恒定;

R0<1, 一个人传少于一个人,感染开始消失。

R0与很多因素有关系,比如采取什么政策会影响到R0。R0很重要,

所谓传染病控制在动态系统数学模型上就是通过计算R0来看疫情的变化。

计算R0需要有三个参数:R0 =βcD

传播概率(β)。每次感染者与易感者之间每一次接触并不等于一定会受到感染,这个参数决定病毒的强度。

接触率(c)。人与人接触的概率,有些病比如艾滋病通过性接触传染,接触率不会很大。像SARS、新冠肺炎等通过空气传染,对接触的管理就很难了。我们要避免人与人之间的接触,要戴口罩等等,都是降低接触率的办法。

感染持续时间(D)。就是感染的治愈程度。除了治愈,不让感染者继续传染也是缩短感染持续时间的办法。

当然还有减少易感人群(S),就是疫苗的作用,也能降低有效繁殖率(Rt)。Rt = St*R0

综上,我们就可以建立一个完整的传染病模型:

郭毅可:用数据说话,疫情的发展我们完全可以未卜先知

模型看起来很复杂,里面有微分等,实际上是非常简单的物理模型。微分就是刻画速度的。这组方程也就是把我上面说的用数学公式写出来。有了这个模型,就可以把它离散化变成状态方程,就可以解出来。

这个模型是很粗的,它没有考虑到很多因素,比如控制交通之后参数的改变,比如方舱医院建立以后对感染持续时间(D)的改变。这些因素放进去之后,方程会变复杂,但基本思想是一样的。

这样就建立了一个刻画疾病传染的动态的方程,数据科学是把这个方程与实际对疾病的观察数据做拟合,把参数找出来。机器学习的方法也会用到很多,因为要拟合参数。


三、数据思维:BBC如何重现西班牙大流感

SIR模型最大的难点是数据很难获得。哪怕是新冠肺炎这么重大的疾病流行时,要把有关疾病的数据拿给科学家做分析还是很麻烦。

还有一个大问题,这些数据分析都是“事后诸葛亮”。

数据分析应该是来指导政策的实施,而不仅仅是用来解释政策。当然,解释政策也很重要,要对政策实施进行评估。

那么能不能在传染病暴发之前,获得一些数据,把传染病的传染模型真正的研究出来呢?我来讲一个英国非常有意思的大众科学(Citizen Science)实验。

2018年,西班牙大流感暴发100周年,BBC决定拍摄一部纪录片来纪念,讲讲流行病怎么防治。问题是流感发生在100年前,当时的场景无法还原恢复。

剑桥大学女教授朱莉·果戈(Julia Gog)想了一个主意,设计一个手机APP来做公民实验,模拟大流感。

手机APP可以收集每个人的位置信息、也可以报告用户之间的交互,有了这些数据就开始模拟流感。假定一个R0值,就可以看这个流感如何感染一个人;用什么办法控制一个区域,看R0值会有什么变化,或者传染率、传染速度也都可以模拟。

郭毅可:用数据说话,疫情的发展我们完全可以未卜先知

BBC Pandemic,大流感模拟实验APP

BBC做的这个APP叫BBC Pandemic,有80,000多人下载。BBC Pandemic采的数据是公开的,同时BBC有很好的保护数据私密性的办法和措施。用户可以匿名报告自己的信息,比如性别、年龄、健康状况、职业(这很重要,关系到不同人的交往方式)。在用户许可的前提下,机器会不断上报用户的位置信息。数据传到后台云上后,系统会根据传染率通知用户在接触过程中是否被感染。

通过所有收集的数据最终可以做到,虽然没有在现实中发生传染病,但是已经可以通过模拟,知道传染病的传染方式和发展情况。

模拟完之后就可以来做对策,比如接种疫苗、做隔离等等的,这些措施的效果如何,全部可以被模拟出来。

整个APP的操作非常简单,而且参与者都很喜欢,像一个和感染作战的游戏。最终,BBC实现了对1918年西班牙大流感的模拟,并且收集了很多的数据,出了很多的研究文章,研究对这样的传染病暴发的各种各样干预方案的效果。BBC实验的结果,发表在2018年《Epidemics》杂志上。

现在国内也有类似的系统,如阿里巴巴大数据疫情监控云屏、中国移动疫情专项分析服务、科大讯飞地方政府大数据疫情防控解决方案、个体移动轨迹追踪等等。

但是,这些分析服务都是在疫情暴发以后,实际上根本不需要等待疫情暴发,我们就完全可以建立这样的系统,这样,我们对于流行病,完全可以做到未卜先知的。

由此我们可以看到数据科学的重要作用:我们完全可以在一个疾病没有发生的时候,模拟这个疾病产生的可能,模拟各种防治方案的效果。这样,我们就可以做到科学精准的决策,这是最重要的一点。

不要等传染病来了再来求助于大数据,这样太晚了,付出的代价也太大。这样的基于大数据的疾病防控系统应该是我们建设智慧城市的一个根本出发点。

四、智慧城市要有免疫力和抗灾力

大家都在做智慧城市,有智慧交通、智慧安防等等。但是一个城市真正想要有智慧,它就要有两个重要的方面:

①它一定要知道现在,有很多信息可以采集;

②还有最重要的一点,它必须能够预见未来。

智慧最重要的一点是能够通过今天来判断明天,很多事情是为了规划明天做的。一个智慧城市,如果不可预见未来,智慧何在?

疾病就是要防患于未然。像BBC做的实验就是一个智慧城市最重要的一点。

中国是大数据非常丰富的国家,运营商、互联网公司有大量的数据,能不能够用好它,真正把城市的免疫力、防灾性建立起来,这很重要。

疫情发生后,我们有了AI疫情应急大数据一体化智能测温预警解决方案,一下子数据都收集起来了,但这个数据是“事后诸葛亮”,现在监控分析的是对有疫病的城市的监控。

我们有了疫情应急决策系统,比如疫情应急管理资源物资大数据、教育局疫情大数据决策系统。但这些系统的数据,因为我们没有做过实验,没有在疫病之前,把这些预案都做好,所以我们只能在今天的实践中试错,错了再改,改好的代价非常大。

所以,数据科学的可预见性非常重要。做大数据研究不是仅仅把生活中的数据拿来考虑怎么做好物流、怎么让不买东西的人去买东西,这些不是数据科学的全部内容。

真正的数据科学是真真实实地知道现在,从而可以精确地预见未来,这是数据科学对社会、对人民最大的重要性。

所有的这一切都应该在疾病到来之前准备好,这是智慧城市一个非常重要的标准。

我认为我们将来的智慧城市要用数据来说现在,说未来,是一个数说的智慧城市。一个未来的城市应该是有免疫力和抗灾力的城市。

我刚才讲的一切只是作为智慧城市应有的免疫力、抗灾力的很小很小的一个技术层面,但就因为没有在这个层面上做好,我们这一次有了血的教训。希望以后我们的城市能够变得真正有免疫的能力,疫病来了以后我们有抗灾的能力,能够保证人民生活的健康,保证他们的幸福生活。


分享到:


相關文章: