AI構建知識圖譜，醫學“連連看”揭示症狀與疾病的關係科技頭條網

知識圖譜（Knowledge Graph）是谷歌（Google）在2012年提出的概念，具體指支持從語義角度組織網絡數據，從而提供智能搜素服務的知識庫，能夠進一步查詢複雜的關聯信息，從語義層面理解用戶意圖，改進搜索質量。

顯然，健康知識圖譜（health knowledge graphs）便是專門應用於健康領域的知識庫。傳統構建的方法是由臨床專家手工編輯而成，費時又費力。最近，麻省理工學院人工智能實驗室（CSAIL, MIT）和貝斯以色列女執事醫療中心（BIDMC）的一項聯合研究中表明，研究人員從患者數據中自動生成了圖譜，揭示了症狀與疾病之間的關係，可幫助臨床診斷，研究結果還得出瞭如何提升整體系統性能的方法。

在健康知識圖譜中，通常會分佈著數百個節點，每個節點代表不同的疾病和症狀。就像遊戲連連看那樣，線條代表著疾病與症狀的關係，會將代表著某種疾病的症狀準確連接。簡單舉個例子來說，糖尿症與過度口渴之間會被連接起來。與我們通常認知的AI預測某類疾病不一樣，知識健康圖譜則是通過學習疾病與症狀的關係來進行臨床輔助決策。

該團隊長期研究健康知識圖譜在不同疾病、不同患者群體中的表現。首先，他們採用了27萬多名患有近200種疾病和770多種症狀的患者數據，對模型進行訓練，而後基於這些真實數據他們還對現有的一些知識圖譜進行評估。

接下來，他們分析驗證了一些現有的算法是如何“抓取”電子健康記錄（EHR）的數據，進而優化其算法，使其能自動學習症狀與疾病之間的相關模式。經測試，研究人員發現，對於某年齡階段患者比例高、或是單一性別患者比例高的疾病，現有模型進行關聯的能力差強人意。不過，這一缺點，可通過為算法選擇更匹配的數據來改進。

這樣的分析驗證過程能規範、指導研究人員提供更具匹配度的數據集、以及建立性能更優的算法。對於醫生來說，強大的知識圖譜讓他們如虎添翼，進行決策和診斷時，能發現更多症狀與疾病的新聯繫。

隨後，研究人員要做的是進行嚴格的錯誤分析，來確定模型對哪些特定患者和疾病的治療效果不佳。他們將數據集分成疾病和症狀的亞群，進而來觀察知識圖譜中症狀-疾病聯繫性。經測試，研究結果被分成50種表現最差和50種表現最好的疾病。諸如心律不齊、足底筋膜炎等不分性別、年齡且常見的疾病在圖譜中的關聯性表現較好，而類似於前列腺癌、多囊卵巢綜合徵等受性別因素限制的疾病以及一些罕見病的表現則較差。

總結來說，對於幾乎所有疾病來說，具有Noisy OR（NOR）模型的圖譜性能最好。不過也存在缺點，若病人患有多種疾病和伴有多樣症狀、或是其年齡偏大或偏小，算法性能還是會有所下降，結果不具絕對性。

研究人員由此推斷：疾病-症狀關聯模型表現不佳與疾病罕見程度以及一些混雜因素造成

。這也就使得現有的知識圖譜很難將特定症狀與特定疾病精準聯繫起來。

最後，研究人員試圖通過分類混雜因素，改善這些性能不足的症狀-疾病聯繫模型。通常來說，機器學習模型在接受訓練的過程中，數據集越多越好，且數據越規整越好，這樣模型才會做出最具關聯繫性的判斷和預測。

於是，基於27萬名患者就診數據，研究人員提取了其中14,804位患者的完整EHR信息，並分成3個不同維度的數據集，分別是：每個患者的完整記錄為一個數據點（共計14,804個點集）、每個不同來源的醫療註釋（診斷記錄等）為單個數據點（共計740萬條醫療註釋）、每個連續30天及以上接受過診療的患者的“治療記錄”為單個數據點（共計140萬篇治療記錄）。

直觀地說，通過更全面數據劃分回顧了患者的患病歷史，形成多種數據集會為模型帶來更高的判斷準確性。基於這樣的推論，研究人員將常見的人口統計數據應用到知識譜圖中，模型正確地在預測前列腺癌時候排除了女性患者的可能，從而減少了混雜因素導致的誤差。

未來，研究人員則希望基於目前的發現，進而建立一個更有用的、強大的、適用於臨床環境的症狀-疾病關聯性預測模型。同時他們認為，目前現有的關於疾病的預測模型以及健康知識圖譜都應接受更多“壓力測試”，以保證其優良性能。

本文由藥明康德AI整理編譯

[1] How well can computers connect symptoms to diseases? Retrieved Jan 16, 2020

from http://news.mit.edu/2020/how-well-computers-symptoms-diseases-0108

[2] Rotmensch, M., Halpern, Y., Tlimat, A. et al. Learning a Health Knowledge Graph from Electronic Medical Records. Sci Rep 7, 5994 (2017) doi:10.1038/s41598-017-05778-z

分享到:

閱讀更多 醫學新視點 的文章

關鍵字: 麻省理工學院人工智能連連看