03.03 什麼是開放公共衛生數據的正確姿勢?


什麼是開放公共衛生數據的正確姿勢?

2020年年初,一場突如其來的疫情從武漢席捲全國,已經引發了一場全國性的公共衛生危機。如何應對危機,西方有句俗話:Prepare, don’t predict。應對就要有提前投入和準備,以此形成一定的資源和能力。

在當今這樣一個大數據和人工智能時代,幾乎人人都理解數據的價值,沒有人會反對政府有關部門形成必要的數據能力以更好地應對公共衛生事件。那麼作為國家公共衛生服務尤其是傳染病防控的核心部門——中國疾病控制中心是否具備必要的數據資源、能力?相對其他發達國家(如美國)水準如何?為了後續更好提供公共衛生服務,哪些方面可以借鑑、優化提升?

我們借鑑心理學評價中心(Assessment Center)技術,由經統一培訓後的多名專家,根據同一個評價量表和評價標準,來對被測進行深度評價,並依據某種算法,最終形成集體評價意見。該方法盡最大可能避免個人主觀評價偏差,形成科學評價意見。

我們以中美兩國疾病控制中心(CDC)的網站為研究對象,通過直接體驗,站在用戶(User)的視角去評價分析兩家機構所具備的數據資源和能力。

中國疾病預防控制中心(簡稱中國疾控中心,英文Chinese Center for Disease Control and Prevention,縮寫CCDC)是由政府主管的實施國家級疾病預防控制與公共衛生技術管理和服務的公益事業單位。中國疾控中心以“一流的疾控依賴一流的科研,一流的科研推動一流的疾控”為工作目標,努力推動科學研究與疾控工作協同發展。目前,中國疾控中心有國家重點實驗室1個,國家衛生計生委重點實驗室3個,中心重點實驗室3個。現有在編員工2120人(截至2016年)。

美國疾病控制與預防中心(Center for Disease Control and Prevention,縮寫CDC)是美國衛生及公共服務部所屬的一個政府機構。美國疾病控制及預防中心使命是“預防及控制疾病、損傷及殘障,促進健康及提高生活質素”。預防及控制傳染病仍是該中心的主要工作。美國疾病預防與控制中心是美國聯邦政府機構,隸屬於美國衛生和人類服務部,是美國疾病預防控制體系的主幹。現有員工8000多人。

通過深度體驗、比較分析,我們認為,美國疾控中心和其數據中心所擁有的數據資源豐富而且質量較高。它能夠站在用戶的角度開展數據架構設計,同時數據滿足不同目標人群需求,有較強的數據普適性,符合公共數據的基本要求;元數據管理和數據目錄等基礎工作紮實,能夠為用戶檢索數據提供強大支持;數據開放度高,提供給客戶多種查詢、下載數據的方式;數據集有對應的人員管理負責,能夠及時更新數據;有專業技術團隊保證了網站功能的更新迭代。整體頁面佈局美觀、功能強大,具有較強的專業水平。

綜合評價為4星。

相對而言,中國疾控中心和其數據中心則在線數據資源較少,質量較差。很多數據需要人工申請,系統對用戶不友好,開放度不足;缺乏元數據管理,數據資源混亂;沒有質量保證的體系;不提供可視化和分析工具;未見有技術團隊對數據和網站及時更新迭代。整體頁面佈局不夠美觀、功能較弱,佈局不合理,專業水平較差。綜合評價為1星(參看圖1、表1)。


什麼是開放公共衛生數據的正確姿勢?

圖1 中美國公共衛生數據服務平臺資源明細對比


什麼是開放公共衛生數據的正確姿勢?

表1 中美疾控中心數據資源與能力對比


基於上述比較分析,我們對中國疾控中心數據管理工作有如下建議:

第一,廣泛而認真調查公共衛生數據使用者的需求,加強數據架構的頂層設計。數據並非客觀而是人造的,是人類根據應用場景按照一定規則創設的對客觀世界的描述與刻畫。數據的採集、存儲、分析、展現完全受制於數據架構的頂層設計,如果採集和分析的數據本身都是垃圾數據,就會存在Garbage in, Garbage out的情況,那麼看上去豪華的大數據系統其實價值並不高,會帶來巨大的資源浪費。

作為一家公共衛生服務機構,中國疾控中心要高度重視各類“客戶”需求,在開展任何數據採集前都需要更廣泛徵集公眾需求、專家意見,在此基礎上搞好數據架構的頂層設計,並定期接受社會反饋,動態優化。只有這樣大數據才不會成為大垃圾,才能真正為社會創造價值。

第二,認真梳理現有數據資源,重構元數據(Meta Data)和數據目錄(Data Catalog),提升數據資源的掌控和盤查能力,推動數據資源向數據資產的轉換隨著信息技術的應用,任何一家機構內部所積累數據資源將逐漸增大。但是如何能讓花費鉅額成本的數據資源成為創造價值的數據資產,就需要對現有數據資源進行科學分類、人性貼標籤,並建立關於數據的數據——元數據,進而形成能夠方便用戶快速、便捷檢索的數據目錄。這一點是對數據資源進行管理的重要基礎。

與美國CDC相比,中國疾控中心的數據檢索系統非常不方便,各個數據庫之間彼此割裂,元數據管理粗糙,不僅無法讓用戶快速理解現有數據資源的如顆粒度、指標內涵、時間範圍、使用權限等相關信息,也對自己內部開展數據管理帶來不便。

我們建議,中國疾控中心應向美國疾控中心學習,儘快認真梳理現有數據資源,按照統一的技術規範,重構元數據和數據目錄,提升數據資源的掌控和盤查能力,並向社會全面公開數據目錄。從一定程度上,讓社會知道疾控中心有什麼數據資源,比讓社會知道某些具體數據是多少還要重要,這樣可以更好吸引社會力量共同參與科研,充分發揮公共衛生數據的價值。

第三,加強內部數據資產管理系統(DMS)的建設,提升數據更新頻率,保證數據及時性。隨著大數據、人工智能技術的不斷提升,數據實時採集、傳輸和分析能力不斷增強,但是從目前公共衛生數據中心網站上可以查到的數據大部分是2016年以前的,數據更新頻率很低,及時性差。從公開信息可以看到,我國已於2017年就建成全球最大的傳染病疫情和突發公共衛生事件網絡直報系統。據此我們推測,專項項目的數據採集與分析能力中國疾控中心應該已經具備,但是如何將來自多個數據源的數據校驗、融合、關聯、入庫,這就需要專業的數據資產管理系統來發揮作用。

我們建議,中國疾控中心及公共衛生數據服務中心可以借鑑互聯網科技公司內部數據管理體系和技術框架,儘快打造智能化的數據資產管理系統(DMS)的建設,提升數據處理效率,提高數據更新頻率,保證數據及時性。

第四,組建跨專業的團隊,適度藉助外部力量,持續積累數據資源與管理能力。數據工作看上去是技術部門的事情,但實際上需要業務人員的深度參與,也需要來自數據科學家、產品經理等多種複合人才的共同努力。從美國CDC Wonder網站上可以看到,前後參與數據工作人員非常多,數據中心的建設是一個持續不懈的過程,絕非一個有期限的“項目”。而且開放數據是由一家專門從事政府數據開放的公司Socrata提供技術支持的。

我們建議中國疾控中心儘快組建來自公共衛生、數據科學、信息技術、產品開發等多方跨專業的團隊,與國內一線互聯網科技公司合作交流,不斷提升數據資源及管理能力。

什麼是開放公共衛生數據的正確姿勢?

第五,尊重參與數據工作的員工,設法激發員工對建設國家公共衛生數據的使命感和榮譽感。數據工作非常瑣碎、枯燥,大部分數據工作者都是幕後英雄,就像偉大建築作品背後的默默無聞的建築工人,但是他們的作用是巨大的。如何激勵這些人的工作,讓他們工作有熱情,是保障數據中心質量的重要因素。

從中國公共衛生數據服務中心網站上我們完全看不到參與這個項目的任何“人”的因素,只有冷冰冰的數字。反觀Wonder,他們在致謝中,專門列示了現已離開,但曾經對CDC Wonder有貢獻的人員名單。如果說搞科研發文章,有個人或團隊署名的激勵,那麼作為數據中心這樣一個“科研公共品”常常會存在公共地悲劇。

我們建議中國疾控中心應該高度重視公共衛生數據中心的建設,像尊重科研工作者那樣尊重參與數據工作的員工,除了物質激勵之外,也要設法激發員工對建設國家公共衛生數據的使命感和榮譽感。

第六,加強數據可視化分析工具的提供,方便用戶更加靈活生成各類精美圖表。

中國疾控中心的數據可視化除了在首頁疫情監測有一張可視化圖之外,其他地方都沒有相應圖表,更沒有可視化插件,無法讓用戶自行創設各種生動精美的圖表。但是美國疾控中心網站這類功能隨處可見。

作為公共衛生服務機構,一個最大的功能是影響公眾,利用先進的可視化工具可以讓社會上各類相關人員(尤其是媒體)生成各種生動直觀的圖表,有利於傳播正確的信息和觀念。我們建議,中國疾控中心後續要提升在線數據可視化工具能力,方便用戶(尤其是媒體)更加靈活生成精美生動圖表,逐步提升社會影響力。

第七,加強公共宣傳,提升信息披露,讓公眾更加了解疾控中心,避免由於誤解帶來的信任缺失。對比美國疾控中心,中國疾控中心和公共衛生數據中心的網站設計不美觀,使用也不方便,帶來的一個重要後果就是瀏覽量很低、很多數據的下載量幾乎為零。一家公共服務機構如果不能為公眾所瞭解其扮演的角色和存在的價值,就失去了存在的意義。

這次新冠狀病毒讓社會大眾對中國疾控中心有了認識,雖然這種認識目前看是負面居多,但是公共衛生的重要性已經深入人心。中國疾控中心應該把握這個機會,後續通過加強公共宣傳,塑造全新形象,進一步提升其對我國公眾衛生意識的公信力和影響力。

當然要做到這一點,我們認為,更重要的是一定要強化自身信息尤其是財務信息披露,讓公眾感知其工作價值的同時也瞭解經費投入和使用狀況。我們建議,中國疾控中心應該儘快借鑑美國疾控中心的做法(可參見https://www.cdc.gov/funding/),向公眾詳細披露歷年決算和未來預算,以此消除公眾誤解,重塑公眾信任。這不僅是現行《中華人民共和國政府信息公開條例》的規定要求,也是人民內心的呼聲。

大數據、人工智能技術的出現,給社會提供了充分的算力保障,但是真正要進入智能時代,絕對離不開高質量的數據資源。提供公共服務的政府部門絕不能僅僅停留在展示炫酷的數據可視化圖表,以滿足現場彙報帶來視覺衝擊力為根本目標。而是要不忘初心,緊密圍繞公共服務、科學研究之初心,踏踏實實設計、採集、清洗、加工、分析、積累和開放共享數據,才能讓數據發揮為人民服務的最大價值。


相關網站:

[1]http://www.chinacdc.cn/

[2]http://www.phsciencedata.cn/Share/index.jsp

[3]https://www.cdc.gov/

[4]https://www.cdc.gov/DataStatistics/

[5]https://wonder.cdc.gov/

[6]https://data.cdc.gov/


*本文選自《什麼是開放公共衛生數據的正確姿勢?——基於中美疾控中心網站的對比研究》,作者為上海大學 清華長三角研究院產城融合中心 巫景飛、倪中新、趙越、孫靜怡,經原作者授權,如需轉載請聯繫授權並註明出處。

-END-



分享到:


相關文章: