AI醫療新突破:增強罕見疾病的影像數據集,大幅提高識別準確率

由於以監督學習方式訓練 AI 系統的醫學圖像非常稀少,識別醫學圖像中的罕見疾病對於研究者而言一直是很有挑戰的問題。

Shahrokh Valaee 教授和他的團隊設計了一種新方法:使用機器學習創建計算機生成的 X 射線影像以增強 AI 的訓練集。

AI醫療新突破:增強罕見疾病的影像數據集,大幅提高識別準確率

在每個象限的左側是一張真實的病人 X 射線胸透影像,其旁邊是由 DCGAN 生成的合成 X 射線影像。在 X 射線影像的下方是對應的熱圖,是機器學習系統觀察影像後得到的。圖源:Hojjat Salehinejad/MIMLab

多倫多大學 Edward S. Rogers 高級電氣與計算機工程系(ECE)教授 Valaee 說:“在某種意義上,我們在使用機器學習來做機器學習。我們正在創建模擬的但反映了特定罕見疾病的 X 射線影像,從而我們可以將它們和真實 X 射線影像結合起來,以得到足夠規模的數據庫,來訓練神經網絡在其它 X 射線影像上識別這些疾病。”

Valaee 是醫學實驗室機器智能(MIMLab)的成員,MIMLab 是一個由醫師、科學家和工程研究員組成的團隊,致力於將他們的專業知識結合到圖像處理、人工智能和醫學中以解決醫學挑戰。Valaee 表示:“AI 在醫療領域中有無數種方式能提供幫助,為此我們需要大量數據。但對於某些罕見疾病,並沒有讓這些系統正常工作而必要的數千張標記圖像。”

為了創建這些人工 X 射線影像,該團隊使用了稱為深度卷積生成對抗網絡(DCGAN)的 AI 技術,來生成和不斷提升模擬圖像。GAN 是一類由兩個網絡構成的算法:一個網絡生成圖像,另一個嘗試將合成圖像和真實圖像區分開來(判別器)。

這兩個網絡被持續訓練直到判別器無法將合成圖像和真實圖像區分。一旦創建了足夠多的人工 X 射線影像,它們就和真實 X 射線影像結合起來以訓練一個深度卷積神經網絡(即分類器),然後該分類器用於對其它圖像進行診斷(正常或有疾病)。

“我們的實驗表明,由 DCGAN 生成的人工數據可以用於增強真實數據集,”Valaee 說,“這為我們提供了更多的訓練數據,並提升了這些系統在識別罕見疾病上的性能。”

MIMLab 將用增強數據集獲得的識別準確率和原始數據集獲得的準確率進行對比,發現對於常見疾病,其識別準確率提高了 20%。對於某些罕見疾病,準確率提高了約 40%,並且由於合成的 X 射線影像不是源於真實的個體,該數據集可以輕易地提供給醫院外的研究者,而不會侵犯個人隱私。

“這實在令人激動,通過證實這些增強數據集幫助提高了分類準確率,我們已經可以克服將人工智能應用到醫療中的一大障礙,”Valaee 說道,“深度學習僅當訓練數據足夠多的時候才有效,而數據增強是可以確保神經網絡能以高精度分類圖像的一種方式。”


分享到:


相關文章: