導語:今天,我們的人工智能技術在疫情防控方面面臨最大的挑戰是,需要更多的數據!算法都是用大量數據喂出來的,如果有更多的數據,我們可以幫助疾控中心的傳染病防控專家做更深入的感染路徑分析、傳播鏈數據分析,不斷調優。當下,將流行病學調查智能分析系統這樣的智能系統用起來,感染路徑分析、數據分析才能更加高效和精準。
突如其來的新型冠狀病毒肺炎疫情防控中,人工智能在疾控中心必有用武之地。
疾控中心,監測、跟蹤分析、制定疫情防控方案的核心技術部門,在疫情期間要和病毒搶時間,快速評估風險、防控重點人群,出具專業的流行病學調查報告,他們的每一項工作都與數據密切相關。阿里巴巴達摩院的機器學習、語音智能、自然語言智能、知識圖譜等為代表的人工智能技術,進入了廣州市疾控中心的視野。
智能外呼、疫情報告自動生成工具、流行病學調查智能分析系統到數據大屏,一系列的系統、工具確保採集上來的數據及時、精準,為疫情研判打下堅實的基礎。
抽絲剝繭,探尋流調報告背後的“真相”
隨著對病毒瞭解的逐步深入,我們對疾病的特徵有了更多的認識,比如人傳人的特徵十分明顯,從飛沫傳播到接觸傳播、再到特定條件下氣溶膠傳播,潛伏期最長達14天等等,因此儘早跟蹤和隔離密切接觸者,才能有效的防控聚集性傳播,避免二次傳播的可能。
確診病例的流行病學調查報告(流調),是疾控中心最核心的基礎資料庫,它能確定傳染源,回溯病例傳播路徑,依據流行病學的專業分析方法,才能確定傳播和控制的手段。
在流行病學調查智能分析系統上線之前,廣州疾控中心手中就有幾百份亟待處理的確診病例的流調報告,早期主要依靠‘人工’的方式進行,存在著分析效率低、關鍵要素提取、回溯傳播蹤跡難度大,流調報告無法快速可視化等諸多挑戰。
一般,從醫院發熱門診或定點醫院得知確診患者後,疾控中心會火速對病例展開一對一的訪談,然後把訪談手動變成Word格式的流調報告,再把關鍵信息提取、整理成Excel調查表,摘出人名、地點軌跡、親屬關係、病症、診斷等與疫情蔓延密切相關的信息,再進行流行病學的分析。
整個過程中,最具挑戰性的是關鍵信息的抽取,疾控中心的工作人員需要像“偵探”一樣,抽絲剝繭,把每一份報告裡的人名、時間、地點等連在一起,搞清楚誰是誰的傳染源、誰在什麼時間、什麼地點、如何接觸到了另外一個人,才能知道誰還有可能出現在這個時間地點,成為重點檢測人群。甚至這個患者是不是有意無意的漏掉了什麼時間地點信息……
對單一確診病例的行動軌跡和傳播面進行分析,可能不是什麼難事。但在新冠這樣蔓延速度極快的公共衛生事件面前,快速增長的確診病例所形成的成百上千的流調報告,將這些信息快速、有效的串聯起來,再做分析,挑戰可想而知。
而這正是人工智能最該出現的地方,憑藉阿里達摩院提供的人工智能技術,將非結構化的確診病例、調查問卷,通過機器學習將流行病學需要的關鍵要素提取出來——這是第一步,機器替代人做的事情。
“廣州市疾控中心給了我們60多項關鍵要素,我們也是第一次知道原來流行病學分析需要這麼多要素才能進行,但機器學習不怕,要素越多越精準”,阿里達摩院自然語言智能實驗室的資深算法專家黃松芳說。
關鍵要素主要可分為兩大類,通用的實體信息和專業的醫療信息。通用實體信息是以人、地址為主,比如確診病例的姓名、住址、時間、交通工具、車次航班、活動場所等;醫療信息,比如症狀、臨床檢查結果、症狀體徵、診療手段等。
目前,利用流行病學調查智能分析系統,極大提升了流調報告分析的效率。首先,系統通過掃描流調Word文檔,將60多項關鍵數據抽取出來;其次,利用機器學習算法自動生成病例的傳播鏈、關係網、時間線,確認疑似病例的輸入源和傳播對象;最後,通過可視化的方式呈現出來。“甚至還能用來發現流調電子文檔缺失了哪些關鍵信息”黃松芳解釋道。
流行病學調查智能分析系統,在底層,融合了阿里達摩院積累的機器學習算法,通用實體知識圖譜、醫療健康行業的專業知識圖譜等,建立智能分析系統。但是,系統最初完全是‘冷啟動’,數據量有限,只能依靠現有的算法和知識圖譜,對疾控中心需要的關鍵信息進行抽取。“我們在抽取信息的過程中,我們還發現了十幾個關鍵信息,反饋給疾控中心,要不斷反覆比對,才能知道哪些信息是必需的”,黃松芳強調。
系統的核心能力體現在三個方面:
第一,系統對文檔結構的理解。比如每一個段落涉及的內容,是個人信息,是檢查結果,還是病患行為路徑上二次傳播的密切接觸者信息。因為流調電子文檔由不同人撰寫,語言、規範、調查問題的順序都不太一樣,所以首先要先解決系統對文檔結構的認知問題。
第二,要讓系統對代詞有清晰的理解。比如調查報告中出現了大量的“患者一“、”患者二“、“他的父親”、“這個人”,這些詞彙究竟是指代哪一個人名,這也是機器學習裡的一個重要點。
第三,系統對實體名的識別,最為重要的是人名和地址。黃松芳舉例道,“比如張自忠路,系統要知道這是人名還是地址?比如廣州的xx村,它其實不是外地同名的一個村,而是一個城中村或者小區。還有患者第一次發熱就醫的機構,市八院、市一院,這是醫療機構的俗稱或者大家慣常的叫法,它準確的名字是什麼?”
利用阿里達摩院積累的地址歸一化技術,首先將文本中的地址片段識別出來,之後對地址做結構化解析,可以有效得對地址做補全和歸一化,如“阿里巴巴西溪園區”,經過地址解析技術後產生的結果是“浙江省 杭州市 餘杭區 五常街道 文一西路 969號 阿里巴巴西溪園區”。這項技術在疾控中心的流調報告中可以有效的繪製出確診患者的活動軌跡。
醫療專業術語的識別和歸一化技術來自於阿里達摩院醫學團隊,憑藉高效的醫學實體識別算法和團隊積累醫學知識圖譜,可以準確識別包括身體部位、症狀體徵、檢驗檢查、診斷等多類醫學實體,並可對同一醫學概念的不同描述進行有效歸一,如“發燒/發熱”,“上感/上呼吸道感染”,便於疾控中心人員對流調患者進行後續的統計分析,為防疫控疫提供決策依據。
當針對人、地址、時間、醫學、車次航班、經過場所等等實體信息被一一抽取出來之後,系統就會將確診病例的傳播鏈、關係網、時間線以可視化的方式呈現出來。讓疾控中心根據流行病學來更加清晰的回溯。
智能外呼,讓疫情監測更有“溫度”
2月4日早上8:40阿里雲的同事接到了來自廣州市疾控中心的電話,事出緊急,要求在儘可能短的時間內完成一項艱鉅的任務:智能外呼數據採集。15:30外呼提示的短信全部發出,晚上21:43完成了所有外呼的緊急請求,23:47趕在零點之前重點人群的外呼排查結果就交到了疾控中心的手中。
“您好,這裡是廣州市疾病預防控制中心智能語音呼叫助理,來電是給您進行健康隨訪,感謝您的配合……”
這段開場白,來自廣州市疾病預防控制中心的智能外呼系統,雖然你聽著好像是真人詢問,但其實對方是“機器人”。截至目前,智能外呼系統已累計幫助廣州市疾控中心完成對重點隔離人群外呼12000人次,“聲”入人心的健康隨訪,不僅大大提升了廣州市疾控中心疫情監測的時效性,也讓身處疫情中的千萬廣州市民感受到了絲絲暖意。
在完成針對確診病例的流調分析之後,密切接觸者人群的傳播路徑清晰的呈現在疾控中心。當然隔離人群名單的來源是多渠道的,廣州市疾控中心智能外呼系統整合了外省市(重要疫區)來穗人員,進行健康隨訪,系統可實時進行語音識別記錄,收集是否發熱、乾咳等健康信息,是否有疫區接觸史、旅遊史等等。
通過每天定時兩次,14天為週期的智能外呼,大大提升了廣州市疾控中心的疫情監測效率、時效性和準確率。也避免了人工排查可能造成更多工作人員被感染的可能性。
智能外呼系統得到了阿里達摩院語音智能和自然語言智能實驗室的技術支持。“阿里達摩院整合了主流的語音和語義算法模型,能對語音識別的方言識別、吐字不準、多輪對話等問題進行精準處理,這是我們這麼多年,阿里巴巴自己商業實踐中,累積下來的智能語音語言系統的技術能力”,黃松芳說。
智能外呼在廣州市有多個應用場景。首先,疾控中心智能外呼系統主要承擔的是疑似病例、密切接觸者等已隔離人群的外呼工作;此外,阿里雲提供的智能外呼系統,還應用在廣州是南沙區、海珠區等開展疫情排查,阿里雲數字政府團隊業務發展專家黃禮智說,“針對廣州市(包含市疾控、海珠區、南沙區)的疫情排查,累計外呼人次已經超過30萬次。”
提到智能外呼,人們首先會想到廣告電話、商業調查等推銷營銷手段,為了減少對被訪人情緒的影響,疾控中心的智能外呼系統在話術、對話流、外呼前的政府宣傳等方面都做了很多細緻的工作。
在外呼前,疾控中心首先會通過短信的方式,提醒人們當接到“020-12320”的來電時,請不要著急掛斷,積極配合智能呼叫調查,耐心傾聽每一個提問,如實回答提供信息。
“智能外呼跟人與人之間的溝通是一樣,我們在語音合成、語速、語調等方面都儘量人性化;在話術和對話流的設計上,儘量採用“是/否”的方式來形成對話流,涉及到需要回答具體問題的部分,如具體地址等,也儘量引導被訪者提供區、街道等選項方式,讓整個過程儘量簡單,讓被訪者順暢的將信息提供出來”,阿里雲數字政府團隊高級解決方案架構師楊振宇說。
“據我們統計,廣州疾控中心智能外呼的接通率整體在80%以上,完成率超過85%”,黃禮智強調。
智能外呼的數據會自動生成的標準的調查表,隨後會導入自動化報告生成工具。該工具是阿里雲針對廣州市疾控中心的疫情防控上報而專門定製開發的工具,以幫助疾控中心將各類採集數據快速生成疫情監測報告,上報給政府部門做疫情研判的決策。
“生成的疫情報告能夠幫助政府和衛健委及時瞭解廣州市整體新冠肺炎的感染情況、傳播情況,以及隔離人群的情況。之前手工撰寫報告效率很低,自動化報告生成工具會依據固定格式,將每天的數據導入進去,生成圖表。疾控中心只需要加入疫情分析的意見,即可快速完成報告,”楊振宇說。
結語
每一次智能外呼,每一份自動化報告,每一份流行性疾病調查分析報告,都成為了廣州市整體疫情防控最為有力的“智能”表達。對廣州疾控中心來說,每天拿到的數據都是“人命關天”的。
黃松芳坦言,“在新冠疫情以來,人工智能技術在疫情防控方面湧現了不少的應用場景,但我們今天面臨最大的挑戰是數據量,算法都是用大量數據喂出來的準確性,如果可能有更多省市的數據,我們可以幫助疾控中心的流行病防疫專家做更深入的路徑分析、數據分析,不斷調優系統,讓決策更加精準。只有更多省市將流行病學調查智能分析系統這樣的人工智能技術用起來,感染路徑分析、數據分析才能更加精準。”
閱讀更多 雲智時代 的文章