神機妙算!清華校友預測美國疫情發展,準確率達 96%,網友:病毒都聽你的,絕了

近來,一個關於美國和歐洲疫情數據的 "神預測" 的日更博客,在網上火了。

到底有多神呢?略舉二三,如下:

  • 3 月 27 日起的連續 10 天裡,該博客對美國感染人數的預測準確率都在 90% 以上,其中在 4 月 4 日,準確率接近 100%(預測為 276727,實際為 276931)。

  • 3 月 31 日,該博客預測美國疫情將在 8-10 天內當檢測人數超過 200 萬的時候出現斷崖式下跌;7 天之後,也就是 4 月 6 日,美國疫情數據出現斷崖式下跌,增幅從 12.43% 降為 8.13%——這篇文章引起了巨大反響,閱讀量超過 134 萬。

  • 自 3 月 27 日以來,該博客對歐洲感染人數的每日預測平均準確率達到 97%,其中在 4 月份的前五天,預測準確率接近 100%。

神機妙算!清華校友預測美國疫情發展,準確率達 96%,網友:病毒都聽你的,絕了

李志斌對美國感染人數的預測(樂觀),準確率高達 90%

對此,有網友評論稱:大神,病毒都聽你的,絕了。

要知道,新冠肺炎疫情的爆發是一個涉及到政治、經濟、地理等諸多複雜因素的全球性重大公共事件,對具體人數的預測聽起來就像是天方夜譚,準確率更是一門玄學——所以,能夠實現上述的預測成績,這個博客背後的博主堪稱是當代 "神算子" 了。

那麼,這位 "神算子" 是怎麼煉成的?

清華大學畢業 + 8 年市場預測經驗

這個博客背後的博主,也就是 "神算子" 本人,名為李志斌。

李志斌,1980 到 1985 年就讀於清華大學計算機系,1985 到 1994年,他就讀並就職於中科院,三十歲擔任副研究員、產品部主任、所長助理,1994 年移居新西蘭,後定居香港至今,現任香港致佳物流軟件有限公司、香港易經科技有限公司總經理。

神機妙算!清華校友預測美國疫情發展,準確率達 96%,網友:病毒都聽你的,絕了

李志斌博客截圖

在李志斌所在的這兩家公司中,前者的主營業務是物流系統開發(Logistics Systems);後者有香港中文大學背景,主要業務是市場需求預測(Market Demand Forecast),也就是為企業提供在未來 3 到 6 個月內特定區域的產品需求、價格波動等方面的數據分析和預測。

在接受雷鋒網專訪時,李志斌表示,他從 2012 年開始進入數據分析和預測領域,由於易經公司的香港中文大學背景,李志斌也從教授們那裡耳濡目染學了不少東西。

另外,從技術層面來說,李志斌在清華大學計算機系的學習經歷,也讓他在軟件建模、大數據分析等方面已經形成一個完備的知識體系;同時,清華大學的理工科學風和背景,也讓他更加重數據、重證據、重例舉,而不是重結論。

所有這些加起來,讓李志斌對 "數據" 非常敏感。

去年底今年初,武漢開始報告病例,香港也出現疑似新冠病毒患者,這讓長期身在香港的李志斌頗為警惕;到了 2020 年 1 月 7 日,香港特別行政區政府宣佈新冠肺炎為法定傳染病,並開始向公眾通報疫情數據,由此,李志斌開始了對新冠肺炎相關數據的追蹤。

神機妙算!清華校友預測美國疫情發展,準確率達 96%,網友:病毒都聽你的,絕了

從那時開始,李志斌每天早上起來進行集中數據採集,一開始只是武漢、湖北、香港的數據,後來是內地其他地區數據,到了 1 月下旬,開始收集海外數據,並整理成 Excel 表,同時開始利用自己的專業知識進行數據建模,並結合新聞中的數據對官方通報數據進行分析和判斷。

最初,李志斌只是在清華的同學群裡分享數據和觀點,後來也每天花出 30 分鐘的時間來博文,並發表在新浪博客上。如今,這已經形成了每天的習慣。

當然,對於李志斌而言,除了對常規的數據進行收集、整理和分析之外,他也在不斷結合自己的專業知識來構建一個數據模型,並且不斷對這個模型進行參數補充和驗證,使之達到預期中的效果。

到了 3 月 27 日,李志斌在數據模型已經趨於穩定的基礎上,第一次給出了針對美國感染情況的預測數據;3 月 28 日,他又給出了針對歐洲感染情況的預測數據。

神機妙算!清華校友預測美國疫情發展,準確率達 96%,網友:病毒都聽你的,絕了

李志斌對歐洲感染人數的預測,平均準確率高達 97%

在他的預測中,不僅僅包含感染病例數量,還包括感染增速、峰值時間、總感染人數、總死亡人數、死亡率等數據——當然,感染人數是他用來衡量預測準確率的最為重要的指標。

就連李志斌自己都沒有想到,自己的預測數據會那麼準。

但是李志斌強調,沒有人可以 100% 準確預測未來,一定要滾動預測。他表示:

預測是一個動態過程,因為好多即時措施、事件等突發因素,是無法預測的,這個時候需要把這些突發事件和決定等因素變成對參數的調整,反饋到預測模型中,使之運行更加準確。我的預測模型、預測參數也在不斷完善過程中。

再好的軟件也不能 100% 預測準確

李志斌的預測,離不開兩個核心要素:數據,和預測模型。

首先是數據的可信度問題。在採訪中,李志斌表示,自己從 1 月份開始每天收集數據,一開始只有武漢和香港有數據,一直到現在,每天收集上百個國家和地區的數據。

李志斌強調,在數據收集和分析的過程中,一定需要甄別數據衝突(Data Conflicting)的出現;尤其是在官方通報的數據量比較大的情況下,會用好多方法包括新聞數據去檢查不同地區的數據之間可能存在的數據衝突,數據衝突點越多,數據的可信度越低。

同時,在判斷數據真實性的過程中,要看數據發佈的速度;數據發佈頻率越高,那麼可信度就會更高一些——而南亞、東南亞地區發佈的數據比較少、比較慢,可信度就會打折扣。

神機妙算!清華校友預測美國疫情發展,準確率達 96%,網友:病毒都聽你的,絕了

來自美國 CDC 官網的疫情情況

另外,在對數據的可信度進行判斷時,還可以借用新聞數據來做對比。李志斌告訴雷鋒網,比如說,醫生和病人之間的比例是比較穩定的,那就可以用新聞中報道的醫療人員數量,來反推病人數量。

他表示,其實,所有的數據都可能存在一些人為的誤差或者統計誤差,沒有任何地區的可信度是百分之百;但是相對來說,美國的數據衝突比較少,在可信度上高一些,歐洲的數據可信度次於美國,因為西歐與東歐之間的不平衡,所以會取平均值。但印度、東南亞、日本等地區的數據就似乎存在一些問題,數據發佈慢、數據衝突點較多,影響了數據可信度的設置。

到二月底,在之前以國內數據為基礎建模、驗證的基礎上,李志斌開始對美國、歐洲兩個地區進行疫情數據預測。於是,在數據的基礎之上,李志斌打造了一個預測模型——實際上,這是一個極為複雜的模型,加起來有上百個參數,其中重要的參數有二三十個,分為以下三類:

  • 第一類是疫情參數——不同地區/國家/城市確診人數、人口、每日新增確診人數、疑似人數、每日檢測人數、死亡人數、治癒人數(含自愈人數)、在診人數、入院人數(重症人數)。

  • 第二類參數與地區/城市/國家特徵相關——城市類型(古城、現代城市、鄉村)、人口密度、氣溫、天氣(大雨、陰雨、有霧、天晴等)、城市 60 歲以上老年人口比例、城市平均年齡、城市建設情況(主要是下水道的狀況)。

  • 第三類參數是關於資源和管治能力——醫療資源、病床數量、社會組織能力、信息透明度、管理方式等等。

李志斌表示,在實際的操作過程中,一般是先用 Excel 收集數據,然後導入到後臺數據庫中,在用自己開發的軟件模型(裡面包含了算法)來得出三個結論,最後自己會再人為地就結果進行判斷——他強調,有很多參數是不能量化的,比如說社會情緒;所以需要人為參與。

他還表示:再好的軟件也不能百分之百預測準確。

當大船和小船同時遇見冰山

在採訪中,雷鋒網發現,畢業於清華大學的李志斌,有著超越數據分析之外的超前洞見和思維。

比如說,在建模過程中,李志斌是從國內的數據開始的,這些數據不僅對李志斌的建模過程產生了重要影響,也讓他得出了一些觀察。於是,武漢封城前一天,他就在自己所在的 "清華 80 同學群" 裡和同學們分享了兩個想法:

  • 一是武漢應當立即封城,因為數據上升太嚇人;

  • 二是在湖北尤其是武漢地區快速建立二三十個網格式野戰醫院,作為隔離救治中心,所謂野戰醫院,也就是後來的方艙醫院,因為疫情發展太猛,隔離病人是比治療更為關鍵的防控措施。

這些想法在同學群裡引起了很多討論,當然也有質疑和反對,但更多的是同學們的積極參與,並提出了好多更好的想法和建議,獲益良多。後來的事實證明,這些想法都是中肯的,並且也被官方後續採取的措施所印證——其中關於野戰醫院等想法更是超前了兩週。

除了上述建議,李志斌還在數據分析和模型構建的過程中發現,成為疫情爆發點的城市往往具備幾個特徵:

  • 老城區;

  • 氣候潮溼;

  • 氣溫 5-15 度;

  • 下水系統老化;

  • 老年人比例高。

值得一提的是,在不同國家的疫情爆發城市,如中國武漢、韓國大邱、意大利米蘭、伊朗德黑蘭、美國紐約等,都大致符合這些特徵。

對於這些特徵的歸因,李志斌強調,其中夾雜了個人的主觀合理猜測,但也經過一系列的結果驗證,最終才體現在預測結果中。他還表示,實際上,在參數中,還涉及到社會組織方式、管理模式、社會信息透明度等問題,所以他在預測中也會把結果設定為悲觀或樂觀。

雷鋒網注意到,如果按照李志斌在在 4 月 4 日給出的悲觀預測結果,他對美國感染人數的總體預測準確率高達 96%。

神機妙算!清華校友預測美國疫情發展,準確率達 96%,網友:病毒都聽你的,絕了

李志斌對美國感染人數的預測(悲觀),準確率高達 96%

不過,在專訪中,儘管有人為參與,但李志斌還是強調了數據在決策中的絕對地位。他表示,即使是拋開疫情不談,在一個日常的決策過程中,數據的重要性可以說是百分之百的;這些數據不僅僅要真實,而且要全面,還要透明,即使在後續過程中有人的參與,也是要基於這些數據判斷而來的——數據,正是決策的基礎。

那麼,基於數據的決策,有多大的覆蓋面呢?

李志斌認為,即使是新冠肺炎疫情這樣的頗具偶然性、又包含政治、經濟等複雜社會因素的群體性公共事件,也是可以預測的。

他表示,類似於傳染病的情況,它的發展存在著一種特定的模式(Pattern),偶然之中有規律在,我們也許無法掌握 100% 準確的規律,但是在一定的規律佔比下,我們依然可以做出一些判斷和決策——當然前提是巨大的有效數據量。

由此,李志斌還談到了一個有趣的比喻:

一隻大船和一隻小船,在突然遇到冰山時,它們勢必要拐彎;但相對來說,大船的結局顯然更具有可預測性。小船一下子就改過來了,但大船的體量太大,有一個慣性,因此它有更大的可能性撞上冰山——這個慣性就是規律,而船的體量本身,就是數據量。

神機妙算!清華校友預測美國疫情發展,準確率達 96%,網友:病毒都聽你的,絕了

數據量越大、數據越準確、相關信息越透明,這種群體性事件發生的時候就越容易預測、且預測越準確——李志斌最後如是說。


分享到:


相關文章: