雲知聲入選 ACL 2020 的三篇論文,都研究了什麼?

雲知聲入選 ACL 2020 的三篇論文,都研究了什麼?

ACL 2020原定於2020年7月5日至10日在美國華盛頓西雅圖舉行,但因新冠肺炎疫情改為線上會議。ACL 2020共收到3429個投稿,是計算語言學領域首個投稿量超過3000的會議。4月3日,ACL 2020 正式公佈錄用論文。

雲知聲-中科院自動化所“語言與知識計算聯合實驗室”共有3篇論文被收錄,分別在醫療對話的自動信息抽取、國際疾病分類(ICD)自動編碼,以及ICD 自動編碼可解釋性等領域取得突破。

作者 | 雲知聲

編輯 | 叢末

1 一種面向醫學對話的醫學信息提取器

雲知聲入選 ACL 2020 的三篇論文,都研究了什麼?

MIE: A MedicalInformation Extractor towards Medical Dialogues

如今,電子病歷已經成為現代醫療的重要組成部分,但是目前書寫電子病歷費時費力,已經成為醫生的沉重負擔。如果能夠從醫療對話中自動地抽取醫學信息,將極大緩解醫生書寫病歷的壓力。

本文提出一個面向醫患對話文本的信息抽取系統,它可以從對話中抽取出症狀、檢查、手術、一般信息及其相應的狀態。這些抽取出的信息將有助於醫生書寫病歷,或者更進一步地應用於病歷的自動生成。研究團隊收集並標註了1120段在線問診的醫患對話作為數據集,採用滑動窗口形式進行標註,和序列標註相比,減緩了標註難度。在此基礎上,針對醫療問診對話文本的特點和難點,提出一種基於深度匹配的神經網絡模型,能夠考慮到對話的多輪結構,利用注意力機制捕捉對話中不同輪次之間的交互信息,從而完善醫學信息的抽取。

雲知聲入選 ACL 2020 的三篇論文,都研究了什麼?

圖1:典型的醫學對話窗口和相應的帶註釋的標籤

2

HyperCore:基於雙曲空間和共現圖表示的 ICD 自動編碼

雲知聲入選 ACL 2020 的三篇論文,都研究了什麼?

HyperCore: Hyperbolic and Co-graph Representation for Automatic ICD Coding

國際疾病分類(InternationalClassification of Dieases,ICD)是由世界衛生組織發起的,針對各種疾病做出的國際通用的統一分類方法,這種方法賦予每種疾病一個獨特的編碼。ICD 編碼的普及和應用能夠極大促進世界範圍內疾病的信息共享和臨床研究,並對健康狀況研究、保險索賠、發病率和死亡率統計產生積極的影響。

長期以來,ICD 編碼一直由專業編碼員人工完成。人工編碼耗時費力,而且非常容易出錯,同時不斷更新ICD 代碼版本會導致代碼數量大幅度增加,對編碼人員的要求越來越高。數據顯示,在美國每年因為編碼錯誤以及用於提升編碼質量的相關成本超過250億美元。

為了緩解人工編碼的問題,一些工作開始嘗試利用機器自動完成 ICD 編碼任務。但是現有的方法獨立地預測每個編碼,而忽略了編碼的兩個重要特徵——層級性和共現性。

在本文中,研究團隊提出了使用雙曲空間和共現圖卷積神經網絡針對性地建模上述兩種性質。具體來說,提出了一種雙曲線表示方法來利用編碼的層次結構。此外,提出了一種共現圖卷積網絡來利用編碼的共現性。在國際公開數據集上的實驗取得了最好的效果。

雲知聲入選 ACL 2020 的三篇論文,都研究了什麼?

圖2:自動ICD編碼任務的示例

3

Clinical-Coder:面向中文臨床記錄的 ICD-10 自動編碼

雲知聲入選 ACL 2020 的三篇論文,都研究了什麼?

Clinical-Coder: AssigningInterpretable ICD-10 Codes to Chinese Clinical Notes

國際疾病分類(ICD)作為世衛組織成員國在衛生統計中共同採用的對疾病進行編碼的標準分類方法,是目前國際上通用的疾病分類方法。目前廣泛使用的國際疾病分類第十次修訂版(簡稱ICD-10)的編碼數量達到了72,184個,是以前版本(ICD-9)的五倍多。

為了緩解人工編碼耗時、費力、容易出錯的問題,很多工作開始研究利用機器進行自動的ICD 編碼。這些方法雖然取得了很大的成功,但仍然面臨著預測結果可解釋性問題的嚴峻挑戰,可解釋的結果對臨床醫學決策具有重要意義。

針對此問題,並結合中文的語言特點,研究團隊提出了一種基於空洞卷積和N-gram語言模型的ICD自動編碼方法,利用空洞卷積捕獲非嚴格匹配的語義片段證據,利用N-gram 捕獲嚴格匹配的語義片段證據,進而二者聯合使用,共同提升預測結果的可解釋性。實驗結果顯示,該方法不僅能在中文數據集上取得顯著的效果,在國際公開的英文數據集上也有不錯的效果。

雲知聲入選 ACL 2020 的三篇論文,都研究了什麼?

圖3:兩種語義片段證據類型-非嚴格匹配和嚴格匹配

值得一提的是,在醫療領域,雲知聲-中科院自動化所語言與知識計算聯合實驗室基於自然語言處理技術構建的醫療知識圖譜已儲備約 50萬醫學概念,超過 169 萬醫學術語庫和 398 萬醫學關係庫,涵蓋了絕大部分藥品、疾病、科室與檢查,規模達國際領先水準,並在語音病歷,病歷生成、病歷質控、輔助診斷系統等具體應用中發揮了重要支撐作用。


雲知聲入選 ACL 2020 的三篇論文,都研究了什麼?



分享到:


相關文章: