騰訊醫療AI實驗室:3篇論文被國際頂尖會議收錄

近日,騰訊在醫療 AI 領域的學術研究獲得實質性進展,旗下醫療 AI 實驗室共有 3 篇論文分別被 KDD 2018、SIGIR2018 、COLING 2018 三個國際頂尖學術會議收錄,論文的主要研究方向為醫療知識圖譜中實體關係的發現和應用。

在醫療領域,專業知識和病人信息均存儲在複雜多樣的文本中,如醫療文獻、臨床病例等。文本數據中的多重表達形式和噪聲給基於文本數據的AI醫療服務帶來挑戰和困難。知識圖譜能夠以結構化的形式存儲醫學中實體以及實體間的關係,能將信息表達成更容易被計算機處理的形式。騰訊醫療 AI 實驗室利用知識圖譜及其相關技術,如自然語言處理、知識抽取、信息檢索、知識表示與推理等,從醫療文獻、醫學指南和臨床病歷中挖掘隱含的醫學知識,將大數據轉化為知識圖譜,使得知識查詢和更重要的形式化推理變得可行,有醫學依據,輔助臨床決策,賦能基於人工智能的醫療產品。

此次騰訊醫療 AI 實驗室研究成果入選的三大學術會議分別是:SIGKDD,數據挖掘研究領域的頂級國際會議;SIGIR,信息檢索領域的頂級國際會議;COLING,自然語言處理領域的重要國際會議。

騰訊醫療 AI 實驗室負責人範偉介紹,“醫療知識圖譜是推動人工智能應用於醫療領域的核心驅動力之一,如何更好地利用自然語言處理、知識抽取等相關技術,從形式多樣、信息雜亂的各種醫療數據中,抽取結構化的醫療知識,結構化存儲實體的詳細屬性以及實體之間的關係,我們在不斷優化提出問題並嘗試給出新的解決思路和研究方法。”


以下為收錄的三篇論文概要:

  1. 入選 KDD 2018:基於生成模型的醫療實體關係抽取(Onthe Generative Discovery of Structured Medical Knowledge)

研究成果:創造性地從生成模型的角度研究醫療實體關係,減少了對語料數據和專家標註的需求

在醫療知識圖譜中,實體三元組以結構化的形式描述了醫學領域中實體間的各種關係。為了獲得醫療領域實體三元組,現有方法大多需要蒐集大量語料,或過多依賴於專家的標註。如圖 1 所示,本文提出的算法 CRVAE (Conditional Relationship VariationalAutoencoder)利用已標註的實體三元組在自然語言表述上的共性和差異,對多種醫療實體關係類內的數據分佈進行聯合編碼,進而從生成模型的角度去發現未被標註的關係實體三元組。該方法減輕了傳統判別模型對於外部資源的過度依賴,並且不依賴於醫療實體關係類間的差異進行建模。

實驗表明,算法 CRVAE 不僅能夠在外部資源有限的條件下,以 92.91% 的支持度生成屬於某個特定醫療關係的實體三元組,其生成的結果擁有 77.17% 的準確率且生成結果中有 61.93% 的樣本未曾出現在訓練數據中。

在未來,我們將嘗試利用生成模型進行不同粒度、不同醫療子領域的無監督知識發現。同時,我們也期待將生成模型作為一種有效的數據增強方式,賦予醫療領域更多人工智能的應用。

騰訊醫療AI實驗室:3篇論文被國際頂尖會議收錄

(答魔社區:www.damor.cn 科研動態,資源乾貨,互動問答)

▲ 圖1. CRVAE模型架構圖示

2. 入選 SIGIR 2018:具有知識感知能力的答案排序模型(Knowledge-aware AttentiveNeural Networkfor Ranking Question Answer Pairs)

研究成果:證明了利用知識圖譜可顯著提高問答系統的性能

在基於人工智能的醫療產品中,對話系統作為最終呈現形式有著廣泛的應用。答案排序是對話系統中的重要部分,最近受到越來越多的關注。然而,已有相關工作在除關注上下文之外,對起著重要作用的背景知識卻關注很少。對此,本文提出了KABLSTM(Knowledge-aware AttentiveBidirectional Long Short-Term Memory),這是一種具有知識感知能力的雙向長短記憶模型,它利用知識圖譜引入的背景知識來豐富問答的表徵學習。

如圖 2 所示,本文開發了一個知識交互式學習架構,其核心是一個上下文引導的注意力神經網絡,可將知識圖譜中的背景知識嵌入整合到句子表示中;最後結合知識型注意力機制模塊,對問題和答案中的各個部分進行有效的相互關聯。在 WikiQA 和 TREC QA 數據集上的實驗結果證明了該方法具有一定有效性。在此工作中,利用知識圖譜來輔助問題和答案的表示學習。在後續的工作中,我們將研究利用知識圖譜進行直接推理,來幫助醫療問答系統。

騰訊醫療AI實驗室:3篇論文被國際頂尖會議收錄

(答魔社區:www.damor.cn 科研動態,資源乾貨,互動問答)

▲ 圖2. KABLSTM模型架構圖示

3. 入選 COLING 2018:基於遠程監督具有協同消噪能力的實體關係抽取模型(CooperativeDenoising for Distantly Supervised Relation Extraction)

研究成果:創造性地提出能夠減少數據噪聲對實體關係抽取性能影響的方法

在知識圖譜的構建過程中,遠程監督(Distant Supervision)能夠減少對標註數據的需求,因此適合從非結構化文本中進行關係抽取。然而,該方法有可能受到訓練數據噪音過大的影響,性能受到限制。為解決這個問題,本文提出了一種協同消噪的模型 CORD (COopeRative Denoising framework),該方法由兩個神經網絡和一個協同模塊組成,如圖 3 所示,兩個神經網絡分別在文本語料庫和知識圖譜領域進行學習,再通過一個自適應的雙向蒸餾模塊(adaptive bi-directional knowledge distillation)完成它們間的相互學習,達到消除噪聲的目的。實驗表明,該方法在噪聲較大的數據上有較明顯的效果提升。

在醫療領域,醫療文本、醫療影像等不同模態、不同來源的數據包含著互補的豐富信息。在後續研究工作中,我們將利用多模態、多源數據進行更加可靠的去噪和醫療知識提取。

騰訊醫療AI實驗室:3篇論文被國際頂尖會議收錄

(答魔社區:www.damor.cn 科研動態,資源乾貨,互動問答)

▲ 圖3. CORD模型架構圖示

醫療知識圖譜作為人工智能應用於醫療領域的前沿課題,對推動“AI+醫療”的發展有著重要意義,將為醫療行業的發展帶來新的契機。當前,騰訊在“AI+醫療”領域的學術研究在穩步前進並獲得國際學術界的認可,有利於更好的推動“AI+醫療”產學研結合,加速醫療 AI 應用落地,為醫療賦予 AI 動能。

騰訊醫療 AI 實驗室是騰訊醫療專為醫療領域打造的人工智能實驗室,採用美國-中國雙中心模式,目前在硅谷、北京、深圳設立了三個分支。主要研究方向包括:通過研發臨床輔助決策支持系統向各級醫務工作者提供服務,以提高醫生用戶在醫學科研、患者診療、疾病防控等方面的工作效率;通過研發基於無可穿戴傳感器純視頻分析技術的運動障礙性疾病評測系統,可用於帕金森病的日常評測、腦癱患者術前步態評測等方面,實現自助評測,以提高醫生工作效率,減低患者評測成本;通過研發醫學知識引擎,構建權威全面的醫學知識庫,並提供對外知識庫查詢等平臺化服務,降低醫療人工智能輔助決策類產品的技術門檻,通過知識共享的方式與合作伙伴共同打造醫療AI的技術和服務生態圈。實驗室的目標是通過世界領先的 AI 技術,構建良好的技術生態,服務於醫患雙方,提高工作效率、優化就醫體驗,緩解醫療資源分佈不均等問題,同時著重落實分級診療國策。


分享到:


相關文章: