郭毅可院士:疫情的發展,完全可用數據思維未卜先知

郭毅可院士:疫情的發展,完全可用數據思維未卜先知

郭毅可院士:疫情的發展,完全可用數據思維未卜先知

所以智慧城市,或可以預見未來

一、數據科學對流行病學貢獻巨大

數據科學在流行病疫情控制上的應用,當然不止是統計每天的疫情數據,它是理解流行病的傳染特性,傳染規律和控制策略的有效性的重要手段。

實際上流行病學本身是數據科學最重要的分支之一,數據科學對流行病學的貢獻是巨大的。

流行性傳染病的基本定義

傳染病是指由特定的傳染物(比如病毒、細菌),通過從受感體(人、動物、植物)直接或間接地傳播給易感體,使易感體被傳染的疾病。傳染病有兩個基本特點:

  • ①患病率影響發病率,患病率越高,發病率就越高,一個病例就可能是一個危險因素。


  • ②流行性傳染病最大的特點是有感染的概率,這和人與人之間的接觸模式是密切相關的。

流行病學就是研究傳染過程、傳染規律的學科。流行病學在最近幾十年裡的研究很多,實際上它不僅僅是研究流行病的問題,也還有很多其他的應用。

有關流行的問題都可以用流行病學的方法來研究,比如市場的品牌效益、社交媒體裡面消息的傳播等等。

關於傳染病,人們有一些常用詞彙:

流行:指一個地區的患病病例突然超出正常的預期。一個地區只有幾十個人患病的不是流行病,可突然漲到幾千人就是問題了。

暴發:指疾病發病率局部突然上升。

地方病(Epidemic Disease):指在一定的地理區域或人群中經常存在的一種疾病或傳染病。

大流行病(Pandemic Disease):指一種發生在非常廣闊的地區,跨越國際邊界,通常影響許多人的流行病。新冠肺炎就有這種特點,它有大流行的趨勢。

流行病學的起源

流行病學起源於英國。19世紀中期,英國本土暴發了霍亂。當時英國的科學家、醫生和政府官員對霍亂不瞭解,一籌莫展,眼看著疫情蔓延。

有醫生觀察到,病人分佈常常是住在窮人區域裡的比較多。衛生條件不好,惡臭的地方比較容易得病,醫生就提議用除臭劑來阻止霍亂流行。更有官員提出要把惡臭的東西徹底清掉,扔進泰晤士河裡。

清洗倫敦的運動發生在霍亂第一次暴發和第二次暴發之間,結果第二次暴發時死亡人數比第一次暴發多了3倍。

問題出在哪裡呢?當時人們也做了很多觀察,但是都沒有對觀察做統計意義上的分析。

當時,倫敦有一個非常有名的醫生,約翰·斯諾,他做了和別人不太一樣的調查。

斯諾走訪了有家人因霍亂去世的家庭,瞭解有染病病人的家庭和沒有染病的家庭的區別,並細緻觀察周圍的環境;對比在同樣狀況下,感染霍亂的人和沒有感染霍亂的人的區別,他們的生活條件、周邊環境、生活方式有什麼根本的不同,收集了很多數據。

他針對這些對照比較的數據,來研究感染霍亂的主要決定性因素,並提出假設和進行驗證。

當時在倫敦有許多家供水公司,同一地區的居民也可以選擇不同的公司。斯諾調查時發現,在一個地區,使用供水公司A的家庭有1263人死於霍亂,而使用供水公司B的家庭則只有98人死於霍亂。

於是,他隨機地各選擇了1萬戶使用供水公司A和B的家庭,然後進行比較,結果使用供水公司A的家庭死亡率是使用供水公司B的家庭的8.5倍。

這樣,他找到了霍亂暴發和水源的因果關係,提出解決霍亂暴發的方法:停止使用供水公司A的水。把倫敦蘇荷區寬街與蘇克萊星街交匯處的一處水井水泵的手柄拆除,不讓大家喝這裡的水。

這個動作一下子就把倫敦霍亂的患病率降了下來。

郭毅可院士:疫情的发展,完全可用数据思维未卜先知

紀念斯諾而保留的水泵和他當年調查繪製的地圖(網圖)

斯諾發表了他的研究結果。30年之後,德國的微生物學家羅伯特·科赫發現霍亂的病原體“霍亂弧菌”,它是能夠存活於水中的病菌,從而用科學證明了斯諾的假設。

回過頭去看,人們認識到,供水公司A是在泰晤士河的下游取水,供水公司B則是在上游取水。上游沒有受到市政府排汙運動的影響;下游由於排汙運動,政府在無意間創造了一個高效產生霍亂患者的社會環境,導致霍亂暴發。

斯諾通過比較兩個人群組在統計意義上的不同,找出區分它們的關鍵因素,從而找到致病的原因,這個方法在統計學裡叫做“假設檢驗”。

斯諾以此為基礎創建了一門非常偉大的學科叫流行病學(Epidemiology),他也被稱為“流行病學之父”。為了紀念他,寬街的那口水井的水泵一直保留到現在,水井對面的酒吧就叫“約翰·斯諾”。

流行病學就是數據的科學

流行病學一開始就是數據科學的驅動,今天的流行病學就是一個完整的數據科學。

流行病學研究要找到病原、病的生成期、潛伏期、傳染性、嚴重性、確診性、病毒傳播的模式、風險分析、干預政策的設計和評估、疫情分析和預測。

流行病學的研究方法包括觀察法、實驗法、數理法都是以數據為基礎的。斯諾做的產生假設、檢驗假設、驗證假設都是統計學的基本思想。

流行病學中的數據科學不一定很複雜。舉一個最簡單、最現實也很經典的例子,就目前暴發的新冠肺炎,倫敦帝國理工學院做了一系列報告。

1月18日,倫敦帝國理工學院發表了第一份對武漢的疫情分析,這份報告影響很大,因為當時中國武漢確診的病例是41例,但報告的預測是近4000。

這個預測是怎麼做出來的呢?我們知道武漢的41例是已經確診的,但我們並不知道到底有多少人被感染了。

我們可以知道的比較準確數據是離開武漢到了國外確診的病例有7個,同時我們從國際航空報告裡知道武漢每天有3300人出國,大概知道新冠病毒從發現到感染的平均時間是10天。

於是,我們把每天出國的3300人作為一個在武漢抽樣的樣本,患病週期是10天,所以總體樣本空間有33000人,其中7人是確診病例,這樣就可以算出感染的概率(7/3300*10)。根據這個概率, 我們可以計算出武漢的感染人數。

  • 武漢人口總數如果按照武漢及周邊地區1900萬人來算,估計被感染的有4030人。


  • 如果只考慮武漢市居民900萬人,估計被感染的有1909人。


  • 這是非常粗略的估計,但它確實有統計學上的意義。

我們知道2月之前, 武漢病人從有症狀,到確診也要有10天左右的時間。那麼, 我們來看看1月28日官方公佈的數據:湖北省累計確診病例3554例,其中武漢市1905例。

湖北省我們估算的結果多了一點,因為我們只算了1900萬人,還不是整個湖北,加上實際還有未發現的病例,我們的估計是不錯的。

而武漢市我們估算的是1909人,官方公佈的是1905人。所以,這個簡單的預測還是相當準的。

這樣的統計在防疫上當然是很有意義的。它告訴我們這個地方有多少人已經得病了,他們馬上就要來醫院了。這就為醫療資源的配置、準備,整個政策的制定爭取了一段時間,這是傳染病學預測非常重要的價值。

二、用流動的數據講述生命

疫情每天都在變,不感染的人變成感染的人,感染的人治癒了或不幸去世了,每天都有非常動態的變化。

要掌握疫情的發展,特別是要了解很多的干預政策怎樣去影響疫情的動態變化。就要建立流行病的動態模型(SIR模型),這又是非常重要的一個數據科學的問題。

何為流行病動態模型?

上個世紀20年代,有兩位既是傳染病學家也是物理學家的英國科學家科馬克(W.O.Kermack)和馬肯德萊克(A.G.Makenclrick),他們研究的流行病動態模型———SIR模型,就是把人群分為還未被感染的(易感人群,Susceptibles)、感染了的(傳染人群,Infectives)、不再被/會感染的(免疫/死亡人群,封閉了的)三個群體之間的動態關係。

現在做的很多預測模型,千變萬化,它們的基本點就是在刻畫三個人群之間的動態變化的規律。研究這個規律,我們要看:

  • (1)從易感者(S)到感染者(I),這個叫感染的傳播過程。我們要研究怎麼樣讓易感者避免被感染,控制易感人群變成傳染人群的速度,這和干預措施有很大關係。


  • (2)從感染者(I)到不傳染(R), 或叫被移除。不傳染有各種情況:


一部分是治好了,一般來說病毒性的疾病治好了就有免疫力,不會再被傳染;一部分不幸死亡了,也不能再傳染;

還有一部分我們能夠有很好的辦法隔離起來,比如方艙醫院,讓感染者不再傳染別人,也可以算是被移除的。

研究這個動態模型,我們就看三個動態變化人群之間的關係:

  • ①在給定時間(t)裡,易感人群還有多少;


  • ②被傳染人群有多少(即已被感染並會傳染的人數,我們每天報的疫情有確認的受感者,但報的是發現就診的, 通常這只是真正受感染的很少的一部分);


  • ③已經治癒的和死亡的數據有多少。這個數目比較確定。

創建動態系統數學模型

首先假設這個模型裡每個人是在不斷遊走的,沒有什麼限制,接觸概率是相同的。我們來研究在這樣的環境裡,傳染病是怎麼傳播的。

然後開始有干預政策,不讓人群那麼自由的流動,減少人與人的接觸,這樣的模型就要做些改變。

在動態模型裡,我們要找到感染速度、恢復速度等一系列特徵量。

感染速度:S→I rate = b*StIt

感染速度(S→I rate),是描述易感者被感染的轉換過程的特徵。

這個感染速度與兩個因素成正比:①被感染人群的大小;②易感人群大小。

所以,感染速度等於易感人群(St)與感染人群(It)的乘積,還要再乘上感染速率參數(b)。

感染速率參數與兩個因素有關:

  • ①與傳染接觸的概率有關。人群接觸少的,參數就會小一點。艾滋病是靠性傳染,傳染接觸的概率一般不大, 而新冠病毒是靠飛沫傳染,傳染接觸的概率就大,要控制人與人的接觸就難一些;


  • ②與疾病傳染性有關,也就是說,一旦接觸後被感染的概率有多大,或者說病毒的傳染性有多強。

恢復速度:I→R rate = a*It

恢復速度(I→R rate),就是從感染者到不再感染者的過程有多長,也是我們常說的傳染期。

恢復速度取決於感染人群的數量(It),和它的大小成正比。

(a)是恢復速率參數,即如何讓感染者不再傳染。恢復速率參數與採取的措施有關,比如發現感染者及早完全隔離,切斷傳染,也和醫治有關係,如找到有效的治療方案。

有了相應的特徵值後,我們就可以建立很好的流行病動態模型,研究三種人群之間動態的關係。實際上倫敦帝國理工學院的報告也是在這個基礎上做的。

郭毅可院士:疫情的发展,完全可用数据思维未卜先知

流行病動態模型基本是這樣一條曲線:開始很多人是易感人群,慢慢這個人群減下來,因為都被感染了;感染人群慢慢上去了,到一定的地方出現拐點,因為沒有那麼多可以再感染的人群了;不被感染有很多因素,比如把人遷出去了,治癒的人變多了,建立方艙醫院隔離了感染者;還有一種是什麼都不做,這樣拐點會被拖到很晚,很多人被感染,不過拐點總會出現的。

流行病動態模型曲線的變化要看採取的防治措施、整個的醫療水平和干預的方法。

郭毅可院士:疫情的发展,完全可用数据思维未卜先知

我們現在經常會聽到R0,即基本繁殖率,指每一個感染個體引發的平均新發感染人數。

R0>1,一個人傳多人,感染傳播開始流行;

R0=1, 一個人傳一個人,感染保持恆定;

R0<1, 一個人傳少於一個人,感染開始消失

R0與很多因素有關係,比如採取什麼政策會影響到R0。R0很重要,所謂傳染病控制在動態系統數學模型上就是通過計算R0來看疫情的變化。

計算R0需要有三個參數:R0 =βcD

傳播概率(β)。每次感染者與易感者之間每一次接觸並不等於一定會受到感染,這個參數決定病毒的強度。

接觸率(c)。人與人接觸的概率,有些病比如艾滋病通過性接觸傳染,接觸率不會很大。像SARS、新冠肺炎等通過空氣傳染,對接觸的管理就很難了。我們要避免人與人之間的接觸,要戴口罩等等,都是降低接觸率的辦法。

感染持續時間(D)。就是感染的治癒程度。除了治癒,不讓感染者繼續傳染也是縮短感染持續時間的辦法。

當然還有減少易感人群(S),就是疫苗的作用,也能降低有效繁殖率(Rt)。Rt = St*R0

綜上,我們就可以建立一個完整的傳染病模型:

郭毅可院士:疫情的发展,完全可用数据思维未卜先知

模型看起來很複雜,裡面有微分等,實際上是非常簡單的物理模型。微分就是刻畫速度的。這組方程也就是把我上面說的用數學公式寫出來。有了這個模型,就可以把它離散化變成狀態方程,就可以解出來。

這個模型是很粗的,它沒有考慮到很多因素,比如控制交通之後參數的改變,比如方艙醫院建立以後對感染持續時間(D)的改變。這些因素放進去之後,方程會變複雜,但基本思想是一樣的。

這樣就建立了一個刻畫疾病傳染的動態的方程,數據科學是把這個方程與實際對疾病的觀察數據做擬合,把參數找出來。機器學習的方法也會用到很多,因為要擬合參數。

三、數據思維:

BBC如何重現西班牙大流感

SIR模型最大的難點是數據很難獲得。哪怕是新冠肺炎這麼重大的疾病流行時,要把有關疾病的數據拿給科學家做分析還是很麻煩。

還有一個大問題,這些數據分析都是“事後諸葛亮”。數據分析應該是來指導政策的實施,而不僅僅是用來解釋政策。當然,解釋政策也很重要,要對政策實施進行評估。

那麼能不能在傳染病暴發之前,獲得一些數據,把傳染病的傳染模型真正的研究出來呢?我來講一個英國非常有意思的大眾科學(Citizen Science)實驗。

2018年,西班牙大流感暴發100週年,BBC決定拍攝一部紀錄片來紀念,講講流行病怎麼防治。問題是流感發生在100年前,當時的場景無法還原恢復。

劍橋大學女教授朱莉·果戈(Julia Gog)想了一個主意,設計一個手機APP來做公民實驗,模擬大流感。

手機APP可以收集每個人的位置信息、也可以報告用戶之間的交互,有了這些數據就開始模擬流感。假定一個R0值,就可以看這個流感如何感染一個人;用什麼辦法控制一個區域,看R0值會有什麼變化,或者傳染率、傳染速度也都可以模擬。

郭毅可院士:疫情的发展,完全可用数据思维未卜先知

BBC Pandemic,大流感模擬實驗APP

BBC做的這個APP叫BBC Pandemic,有80,000多人下載。BBC Pandemic採的數據是公開的,同時BBC有很好的保護數據私密性的辦法和措施。用戶可以匿名報告自己的信息,比如性別、年齡、健康狀況、職業(這很重要,關係到不同人的交往方式)。在用戶許可的前提下,機器會不斷上報用戶的位置信息。數據傳到後臺雲上後,系統會根據傳染率通知用戶在接觸過程中是否被感染。

通過所有收集的數據最終可以做到,雖然沒有在現實中發生傳染病,但是已經可以通過模擬,知道傳染病的傳染方式和發展情況。

模擬完之後就可以來做對策,比如接種疫苗、做隔離等等的,這些措施的效果如何,全部可以被模擬出來。

整個APP的操作非常簡單,而且參與者都很喜歡,像一個和感染作戰的遊戲。最終,BBC實現了對1918年西班牙大流感的模擬,並且收集了很多的數據,出了很多的研究文章,研究對這樣的傳染病暴發的各種各樣干預方案的效果。BBC實驗的結果,發表在2018年《Epidemics》雜誌上。

現在國內也有類似的系統,如阿里巴巴大數據疫情監控雲屏、中國移動疫情專項分析服務、科大訊飛地方政府大數據疫情防控解決方案、個體移動軌跡追蹤等等。

但是,這些分析服務都是在疫情暴發以後,實際上根本不需要等待疫情暴發,我們就完全可以建立這樣的系統,這樣,我們對於流行病,完全可以做到未卜先知的。

由此我們可以看到數據科學的重要作用:我們完全可以在一個疾病沒有發生的時候,模擬這個疾病產生的可能,模擬各種防治方案的效果。

這樣,我們就可以做到科學精準的決策,這是最重要的一點。

不要等傳染病來了再來求助於大數據,這樣太晚了,付出的代價也太大。這樣的基於大數據的疾病防控系統應該是我們建設智慧城市的一個根本出發點。

四、智慧城市要有免疫力和抗災

大家都在做智慧城市,有智慧交通、智慧安防等等。但是一個城市真正想要有智慧,它就要有兩個重要的方面:

①它一定要知道現在,有很多信息可以採集;

②還有最重要的一點,它必須能夠預見未來。

智慧最重要的一點是能夠通過今天來判斷明天,很多事情是為了規劃明天做的。一個智慧城市,如果不可預見未來,智慧何在?

疾病就是要防患於未然。像BBC做的實驗就是一個智慧城市最重要的一點。

中國是大數據非常豐富的國家,運營商、互聯網公司有大量的數據,能不能夠用好它,真正把城市的免疫力、防災性建立起來,這很重要。

疫情發生後,我們有了AI疫情應急大數據一體化智能測溫預警解決方案,一下子數據都收集起來了,但這個數據是“事後諸葛亮”,現在監控分析的是對有疫病的城市的監控。

我們有了疫情應急決策系統,比如疫情應急管理資源物資大數據、教育局疫情大數據決策系統。但這些系統的數據,因為我們沒有做過實驗,沒有在疫病之前,把這些預案都做好,所以我們只能在今天的實踐中試錯,錯了再改,改好的代價非常大。

所以,數據科學的可預見性非常重要。做大數據研究不是僅僅把生活中的數據拿來考慮怎麼做好物流、怎麼讓不買東西的人去買東西,這些不是數據科學的全部內容。真正的數據科學是真真實實地知道現在,從而可以精確地預見未來,這是數據科學對社會、對人民最大的重要性。

所有的這一切都應該在疾病到來之前準備好,這是智慧城市一個非常重要的標準。

我認為我們將來的智慧城市要用數據來說現在,說未來,是一個數說的智慧城市。一個未來的城市應該是有免疫力和抗災力的城市。

我剛才講的一切只是作為智慧城市應有的免疫力、抗災力的很小很小的一個技術層面,但就因為沒有在這個層面上做好,我們這一次有了血的教訓。希望以後我們的城市能夠變得真正有免疫的能力,疫病來了以後我們有抗災的能力,能夠保證人民生活的健康,保證他們的幸福生活。

郭毅可院士:疫情的发展,完全可用数据思维未卜先知


分享到:


相關文章: