北京大學王亞沙:新冠肺炎傳播預測模型

不到現場,照樣看最乾貨的學術報告!

嗨,大家好。這裡是學術報告專欄,讀芯術小編不定期挑選並親自跑會,為大家奉獻科技領域最優秀的學術報告,為同學們記錄報告乾貨,並想方設法搞到一手的PPT和現場視頻——足夠乾貨,足夠新鮮!話不多說,快快看過來,希望這些優秀的青年學者、專家傑青的學術報告 ,能讓您在業餘時間的知識閱讀更有價值。




人工智能論壇如今浩如煙海,有硬貨、有乾貨的講座卻百裡挑一。“AI未來說·青年學術論壇”系列講座由中國科學院大學主辦,百度全力支持,讀芯術、paperweekly作為合作自媒體。承辦單位為中國科學院大學學生會,協辦單位為中國科學院計算所研究生會、網絡中心研究生會、人工智能學院學生會、化學工程學院學生會、公共政策與管理學院學生會、微電子學院學生會。2020年3月29日,第13期“AI未來說·青年學術論壇”AI助力疫情攻關線上專場論壇以“線上平臺直播+微信社群圖文直播”形式舉行。北京大學王亞沙帶來報告《新冠肺炎傳播預測模型》。


王亞沙,博士、北京大學軟件工程國家工程研究中心副主任、教授、博士生導師,中國計算機學會高級會員、普適計算專委會常委、國家大數據標準委員會技術專題組組長。長期從事數據分析、普適計算、城市計算等領域的研究工作,在IEEE IOTJ、IEEETMC、ACMUbicomp、ACM CSCW、AAAI、IJCAI、ICDE等國際高水平學術期刊和會議發表論文百餘篇。作為首席科學家承擔國家科技重點研發計劃項目1項,並承擔國家多項自然科學基金、國家863計劃、“核高基”重大科技專項課題,取得大數據、智慧城市相關的發明專利十餘項。研究成果獲國家科技進步二等獎、北京市科技獎二等獎、國家教育部科技進步獎一等獎。


報告內容:首先介紹建立新冠病毒疫情分析預測的意義、數據來源和數據預處理方法,然後介紹報告人及團隊建立的多種疫情數據分析方法和疫情預測模型,接下來分湖北、湖北域外地區對模型預測結果進行了對比和討論,最後探討了相關方法和模型的可擴展性及其在其它領域的應用潛力。


北京大學王亞沙:新冠肺炎傳播預測模型

新冠肺炎傳播預測模型


北京大學王亞沙:新冠肺炎傳播預測模型

王教授首先介紹了研發預測模型的意義與作用。第一,模型針對未來不同時段可以揭示疫情的總體發展狀況(惡化還是緩解)、到達拐點的時刻,以及未來的感染人數、潛伏期人數、發病期人數、地區疫情走勢等關鍵信息。第二,從模型計算出的參數可以表徵不易直接觀察的疫情動態參數,幫助我們理解並預測不同時期的疫情特點,比如有效再生數、基本再生數、感染者被醫院收治比例等等。第三,模型能夠預測不同措施對疫情發展的影響:不同時期的措施對模型參數的影響不同,會直接在指標的發展曲線上反映。以上等等功能都可以輔助公共衛生、應急、疾控等部門和其他相關決策者制定疫情防控策略,比如落實在具體時間地點上的醫療投入、是否限制流動、對個人採取的防護建議、復工復學的可能性。總而言之,通過研發大數據預測模型希望對疫情防控這件事情做到有的放矢、未雨綢繆。


除此之外對數據進行平滑處理。 2月12日國家衛健委發佈新版指南,湖北省新增“臨床診斷病例”分類,這些人用核酸試紙測試是陰性,但是臨床通過CT片子判斷有明顯症狀,為了做到應收淨收而增加了臨床診斷這一類病例。因為以前沒有這個分類,現在增加這樣一個分類導致2月12日湖北省報出來確診病例驟增為14000多人,其中13000多人是標準變化帶來的新增,而且不是12日那一天產生的,是之前累計產生的。團隊參考終南山院士論文說治療時間中位數是12天的研究結論,把13000多人按照過去12天確診人數比例分攤。這就是數據平滑處理。否則直接拿數據跑模型很難跑出正確的結果。


北京大學王亞沙:新冠肺炎傳播預測模型

第一版的自迴歸、機器學習模型


王教授團隊考慮的第一類模型是從數據出發的模型,包括自迴歸和機器學習(深度學習)兩種。自迴歸模型把數據看成一個時間序列,橫軸是時間,縱軸是一個觀測變量,即疫情相關數據如新增確診病例。自迴歸會用一條曲線擬合觀測變量的點得到一條發展曲線。簡單的自迴歸模型將所有數據劃分為同一個時間窗口,但它不符合新冠疫情模型,因為政府在不同時間段採取的措施是不同的;比如武漢封城之前如果認為新增病例符合某一個模型的話,封城以後數據就跟封城之前不應該是同一個模型,因為一些基本參數變化了。不同時間窗口對應不同的曲線,所以需要對數據劃分成若干時間窗口分別擬合。時間窗口要通過模型自適應地選取,而不是人為劃分。這裡引入了差分整合移動平均自迴歸模型ARIMA解決問題。 另一個模型是基於時間序列的LSTM。LSTM的表達能力更強,可以考慮到不同變量間的耦合關係,而採用自迴歸模型時,每一個變量獨自建模,變量之間是相互獨立的。


第一類模型這是從數據本身觀察預測,比較簡單易於實施,對近期預測效果尚可,但長期預測性能顯著下降,並且只能給出變量預測結果,並不能夠揭示疫情發展更深層次的規律。


北京大學王亞沙:新冠肺炎傳播預測模型

第二版的動力學模型


第二類模型是融合傳染病動力學的模型,因為如果沒有把領域特定知識用到估計中來,肯定不能把估計做得特別好。所以團隊做了一個模型基於可獲得的疫情數據,對C-SIER傳播模型進行了定製。模型把人生活環境分成兩類,一類是未隔離環境,這個環境里人和人可以傳染,另一類是隔離環境,比如方艙醫院。除此以外還有死亡人群、恢復人群,這兩類人都沒有傳染性,不把他們放到任何一個環境裡。


北京大學王亞沙:新冠肺炎傳播預測模型

動力學模型微分方程組


圖中節點定義了疾病傳播中不同狀態的人群,箭頭表示人群間概率轉換,如易感人群被感染變成潛伏期人群,潛伏期人群發病變成未隔離發病人群等等。接下來定義微分方程定量表達不同狀態人群數量的變化。以第一個方程為例,E’表示未隔離潛伏期人群每天變化的量(E的一階微分),它的增量代表被E和I類人群被感染的數量,減量代表轉換為被隔離和未隔離發病的數量。E前面的經驗係數是因為同樣感染的病毒,沒發病人(E)感染性比發病傳染性(I)要低,經驗值是0.1,也就是說潛伏期傳染性是發病期傳染性的十分之一。增量前面乘表示這部分人以多大可能性傳染別人,它是一個隨時間變化時變參數,這是因為在不同的時間段採取的措施和醫療資源調配不同,人傳人的可能性就不同。接下來可以採用隨機梯度下降等優化方法進行求解,目標函數是對不同類型人群預測數量的最小平方損失。


動力學模型融合傳染病動力學知識,考慮了隨時間變化的抗疫措施的動態影響,因此可以預測較長時間的值,準確率明顯提升。而且模型參數和深入觀察的變量可以幫助更深入認知疫情發展態勢,比如對確診病例存量的預測顯示湖北省7月底會趨近於0,湖北以外地區4月底趨近於0。除此以外,最後一名感染者是7月15日之前被隔離,考慮本次新冠肺炎潛伏期是2—7天,所以根據流行病學原理髮現最後一例病人被隔離經過2個完整潛伏期最大值再無病例可以宣佈疫情結束,團隊猜測在7月底國內可以宣佈疫情結束。


另一個跟傳染性很相關的重要參數是有效再生數,衡量了疾病傳播能力,這個值小於1表示疾病得到控制,這個值越大表示傳染性更強。團隊分析一些結果可以看到說Rt最大值是2.0—3.3之間,與鍾院士等論文中的抽樣結果一致。而傳播率的降低與干預措施的實施有一定滯後。除此之外還有一系列的觀察,比如對不同省市建模的動力學模型轉移概率的估計值做一些觀察會發現較之湖北以外,湖北省未隔離尚處於潛伏期的感染者以更大概率開始暴露症狀,也就是湖北更多人進入潛伏期晚期出現症狀。


團隊還搭建了一個可視化系統,也與山西省疾控中心合作,基於系統和細粒度數據為山西快速搭建了一個疾控系統。


北京大學王亞沙:新冠肺炎傳播預測模型

引入更多數據,結合動力學和神經網絡的第三代模型


動力學模型的缺陷在於模型參數太多而已知數據太少,擬合過程中容易受噪音干擾,魯棒性差。此外,沒有疫情直報數據、百度人口遷徙數據以外的其他數據,以及各省獨立建模等都影響模型性能。各省市都是同一種病,可以建立多任務學習框架把模型做得更好。所以團隊對原來模型做了改進,加入了一些新的數據(更多的數據),並且做了一個動力學模型和循環神經網絡相結合的方案,並建立了一個多任務學習的框架,使各個省之間學習任務可以相互促進。如上圖的模型V3所示。


最後王教授做了總結:這種突發性傳染病早期知識少,數據積累比較少,而且事態變化很快;我們應該建立一個符合一般規律和中國特色的動力學模型,要儘量融合多源數據,對模型參數進行有效降維,才能夠提高魯棒性。此外,團隊也開始在一些國外數據上建模預測。除了疫情以外,不同類型謠言的傳播趨勢,網民情緒、輿情的變化本質上也是一種動力學模型,可以將團隊的工作很好地遷移過去。


北京大學王亞沙:新冠肺炎傳播預測模型

我們一起分享AI學習與發展的乾貨


分享到:


相關文章: