基於醫學人工智能技術的病案首頁智能編碼研究健康頭條網

點擊上方“中國數字醫學”可以訂閱哦！

病案首頁智能編碼的研究背景

病案首頁是病歷檔案中最重要的一頁內容，它濃縮了病歷檔案整體的精華，是醫療信息管理和醫療業務統計的重要資料。病案首頁的質量會直接影響DRGs分組的質量和使用後的效果。而病案首頁中的診斷編碼又是病案信息中的重中之重，其編碼的準確性、規範性將極大地影響DRGs分組的結果以及後續各類指標及費用計算。

研究目的隨著計算能力的提升，基於深度學習的人工智能技術出現了井噴。人工智能技術在很多的領域裡可以模仿人腦進行一定程度的邏輯及非邏輯判斷，最終可以實現類似於人類的決策判斷。

利用先進的人工智能技術探索在病案首頁質量控制問題，尤其是編碼糾正、輔助上的可行應用。具體實現目標如下：智能化ICD自動編碼對應；多診斷情況下自動判別主要診斷；智能化編碼合併及合理費用優化。病案首頁數據質控可以使用片面與全面方式分別實現。片面實現方式僅只利用病案首頁內的相關數據，利用相關分析方法進行處理分析，最終可以實現病案數據的修正、優化及稽查。全面實現方式在可以獲得包括病人電子病歷數據、處方數據、檢查數據等相關其他信息時可以做出的複雜數據質量評估。

病案首頁智能編碼模型

應用先進的自然語言處理技術、機器學習技術等基於人工智能算法開發的各類模型，將其應用在以診斷（編碼）為主的病案首頁數據之上。具體技術架構如圖1所示，其包含以下特徵。

圖1 病案首頁質控框架

整合知識庫的自然語言處理文本分析原始出院診斷信息為病案首頁中的重要信息來源，而且大多數情況下以自然語言形態出現（即醫生手動輸入的文字型診斷內容）。同時，國家規範的ICD編碼（包含ICD-10以及ICD-9-CM版本），其中的標準診斷書寫方式也是基於自然語言。一般情況下醫生需要通過自己輸入的關鍵詞或完整診斷內容從系統自動化匹配的ICD編碼中選擇合適的對應編碼。然而很多時候醫生的書寫方式與ICD中的形態完全不同，因而一些情況下通過關鍵字的搜索無法找到對應的ICD編碼。

然而這一問題可以通過知識庫積累與自然語言處理算法進行優化。自然語言處理算法可以將醫生書寫的出院診斷文字進行語義學分析。將其中的核心詞，及對應程度、病因、病理、部位、臨床表現等的修飾詞進行拆分與結構化。因而，不同部分的信息點可以以不同的方式進行分析。例如，標為“開放性右肱骨骨折”的主要診斷，自然語言分析可將其拆分為“開放性” “右” “肱骨””骨折”，分別指代診斷的類別、方位、位置及內容。因而可以對不同部分進行詳盡的分析，從ICD編碼中找出對應的大類。

進而，醫學知識庫可以將各類表述同一診斷的不同表述方式進行整理歸一，同時也可以將各類醫學名詞之間的關聯性進行細化。例如上例中，可以通過知識庫分析得知“右肱骨”屬於“肱骨”、“肱骨”位於上臂，因此將會從ICD編碼中排除所有不符合的編碼，對候選結果進行優化。

機器學習、深度學習模型構建由於編碼過程除了涉及醫學相關知識外，還要求編碼人員有一定的邏輯判斷能力。例如可以從多個出院診斷中選擇合適的診斷作為主要診斷，或面對多個診斷信息時可以恰當地將其中可以合併的診斷進行編碼合併。在此前提下，機器學習、深度學習算法可以對該環節進行一定程度的輔助。

計算語言相似度的方法有很多，依據前期探索的經驗，單一方法在自動編碼輔助上的效果都偏差。因而需要探索多種方法整合後生成的模型是否可以具備更高的可用性。同時，應用神經網絡將各類單一算法中有限的變量整合後進行關聯，將可以在原有算法基礎上形成新的、可支持一定邏輯的深度學習模型。一些候選的研究算法羅列在表1中。

表1 研究算法

自學習算法、強誤差容忍度為實現主診斷的選擇與合併編碼，模型應具備極強的自學習能力與抗噪聲能力。現有院內編碼數據（甚至包括監管部門得到的歷年上傳的數據）的一個特點就是其中依舊有不少難以發現的錯誤與偏差。因而，在訓練相關的模型時，在無法得到完整的並且無誤的訓練數據的時候如何保證模型具備一定的誤差容忍度就成了極具挑戰性的命題。

傳播數字醫學領域發展最新動態，關注醫療衛生信息化相關資訊。

長按掃碼關注我們

分享到:

閱讀更多 中國數字醫學 的文章

關鍵字: 數據挖掘病案人工智能