研究中常常充滿各種人為的、客觀的、明顯的、潛在的混雜和偏倚。然而,一項研究的質量很大程度上取決於研究者能否有效地識別和控制混雜和偏倚,因為這直接影響到研究結果的可靠性和有效性。眾所周知的“垃圾進出垃圾”(GIGO)理論同樣適用於實驗設計和數據分析。面對越來越複雜的真實世界、基於模型的預測將面臨巨大的挑戰。
據美國約翰斯•霍普金斯大學的實時數據顯示,截至北京時間3月24日17:30分,全球新冠肺炎確診病例累計達到382644例,累計死亡超過1.6萬人。
經過將近2個月的艱苦奮戰,國內疫情防控這場全民參與的阻擊戰迎來了階段性勝利。在這期間,國內外一些科研機構利用數學模型對新冠病毒的可能感染規模和傳播風險等進行了預測。這種預測在為疫情防控提供一定指導意義的同時,也有人對此提出質疑,主要集中在預測本身的科學性及其產生的實際作用,乃至於社會影響等方面。
其中一篇題為“Effect of non-pharmaceutical interventions for containing the COVID-19 outbreak in China”對我國的疫情發展進行了預測。文章指出,如不採取極端措施,內地感染總人數可能會比現在高出67倍,達數百萬。
隨著疫情的深入發展,一時間各種大數據技術名詞頻頻進入大眾視野、令人目接不暇,例如模型預測、人流追蹤、疫情數據實時共享、優化調度、輿情監控等等。其實在人類與傳染病作鬥爭的漫長曆史中,除了醫護人員外,數學家們也為遏制各類疾病蔓延做出了重要的貢獻。
其實早在18世紀初,數學模型就被用來研究天花的傳播。流體力學的祖師爺,大數學家丹尼爾·伯努利(Johann Bernoulli)大概是最早利用數學方法去描述天花的傳播、接種的功效和判斷控制措施有效性的數學家。
伯努利將人群分成感染者、未感染者,感染者既有可能治癒變成未感染者,也會因病死亡。伯努利建立的模型類似於後來的SIR模型,是最為簡單的傳染病模型之一。直到今天,這套疾病預測模型的主要參考因子也沒有發生太大變化。
目前預測主要有SIR模型和SEIR模型。SIR模型是最經典的模型,其中S表示易感者,I表示感染者,R表示恢復者。SEIR模型在SIR模型的基礎上,加入傳染病潛伏者(The Exposed)的存在。
S:Susceptible,易感者
E:Exposed,潛伏者
I:Infective,感染者
R:Removal,移除者
在這個模型中,還可以分成許多子模型:例如,1、潛伏期人群是否有 傳染能力2、潛伏期是否有時間限制 3、恢復健康者是否有抗體,等等。
問題來了,基於各種數學模型進行的預測效果怎麼樣呢?答案貌似不太樂觀。有人將預測疫情進展形容為天氣預報,主要的原因大概是由於:“Limited data inputs and rapid changes make predictions difficult”。美國網友甚至還製作了專門預測疫情進展的網站,同時允許大家修改各種參數。儘管人人都在試圖弄清楚COVID-19的傳播和流行軌跡(例如拐點什麼時候到來、何時能夠結束等),但面對太多的不確定性(例如各國的國情、試劑盒產能、醫療條件等等),數學模型顯然有點兒力不從心。在國內,由清華計算機系AMiner團隊和智譜.AI聯合推出的“知疫趨勢”預測是目前最接近真實情況的預測之一。
有一種觀點認為新冠肺炎疫情顯示了全球化促進流行疾病在世界範圍的迅速傳播,併成為系統性風險。由疫情引發的“蝴蝶效應”已經開始在各個行業顯現。
This storm will pass. We just don’t know how bad it will be. And we don’t yet know when it will end.--Paul Huttner
任何模型的預測都離不開基本的數學基礎,關注公主號,推薦延伸閱讀:《流行病學研究中常見的偏倚及其控制》僅供專業人員參考。
閱讀更多 王博士聊科普 的文章