弱監督學習為什麼在醫學影像領域特別有效?!

張益肇:

舉一個醫療領域的例子——病理切片的解讀,這在中國是一個特別大的挑戰。中國每10萬人口中只有不到兩位病理醫生,美國每10萬人中有超過50位病理醫生,日本每10萬人中也有超過10位病理醫生。也就是說,中國的病理醫生非常缺乏。我們再看病理醫生要做哪些工作:假如一個人不幸患了肺腫瘤,病理醫生要把他的切片切成二三十片,然後仔細觀察其中哪一類是病變的,是什麼樣的病變,A、B、C類型病變的百分比各是多少。這個工作很耗時間,另外,訓練這樣的專業人才也很困難。假如我們可以用電腦輔助醫生做這些工作,是不是可以讓他們更加高效?

我們提出了機器學習,這就帶出了我的下一個話題——弱監督學習。為什麼要提弱監督學習?面對一個病理切片,我們通常有三個目標——分類、切割或聚類。病理圖片通常很大,一張病理圖片可以達到5萬X5萬像素,甚至更大。訓練模型有三種方法:一是沒有標籤的訓練,這對病理圖片來說很難;二是弱標籤訓練,即利用相對簡單的標籤學習;三是帶詳細標籤的訓練,比如剛才提到的肺腫瘤的例子,你需要標註每一個腫瘤組織的情況。

下面給大家展示兩張圖片,看看人類是如何學習的。

弱監督學習為什麼在醫學影像領域特別有效?!

我給幾位醫生看過這兩張圖片,他們很快就發現了其中的差別:上面這張圖片中有兩種魚,除了橘色的小丑魚,還有一種黑白相間的魚;下面這樣圖片則只有小丑魚。使用弱監督學習的時候,只要告訴系統這兩張圖片有差別,不需要說明差別在哪,讓他自己學習就好了。這樣一來,標註的工作就少了很多。

回到病理切片的例子,下面這張圖片中既有癌細胞又有正常細胞:上面的是癌細胞,下面的是正常細胞。就像前面講的,我們只需要提供這兩類圖片,無需勾畫所有癌細胞和正常細胞的邊界,系統就能學習。這樣的好處在於:中國的病理醫生很缺乏,讓他們標這些圖像的邊界是非常大的工作量而且也很難。現在只需要標出有沒有癌細胞,就相對容易多了。弱監督學習的優勢就在於在減少標註工作量的情況下,更充分、有效地利用數據。

弱監督學習為什麼在醫學影像領域特別有效?!

這種弱監督學習的方法我們從2012年就開始使用了,當時還沒有深度學習。下面介紹一項新的研究成果――把弱監督學習和深度學習結合在一起。大家如果感興趣,可以查閱我們去年11月發表的論文。

弱監督學習為什麼在醫學影像領域特別有效?!

這個方法的基本概念是訓練兩個分類器,上面是正常細胞,下面是有癌細胞。我們希望自動訓練分類器,讓它在像素級別告訴我們一個細胞到底是癌細胞還是正常細胞。我們統計出圖片中的細胞有癌還是無癌後,再把它放到下圖中的訓練方程式裡。

弱監督學習為什麼在醫學影像領域特別有效?!

下面是一張比較完整的架構圖,我們不僅分了好幾層,還用到了Area Constraints。

弱監督學習為什麼在醫學影像領域特別有效?!

如果光用剛才講的分類的方法,不管一張圖片中有10%的面積是癌細胞,還是60%的面積是癌細胞,它訓練的評價模式是一樣的。所以它傾向於把越來越多的細胞當成癌細胞。我們想,能不能繼續減少標註量,同時還能得到更好的效果?於是我們加入了Area Constraints。醫生只需要估計裡面到底有10%、20%還是30%的面積是癌細胞就可以了,而不用標出癌細胞在哪,這又減輕了工作量。我們讓兩位醫生標註,如果標註結果不統一,再請第三位醫生來看哪個標註結果是正確的。

弱監督學習為什麼在醫學影像領域特別有效?!

下圖中的數據庫是我們微軟亞洲研究院和浙大合作的,用一些大腸癌的圖片訓練,訓練數據約有600張,測試數據有兩百張左右。

弱監督學習為什麼在醫學影像領域特別有效?!

我們用這個方法實驗,來看一下結果。下圖中紅色標註的是弱監督學習的結果,它的指標與人工判別的情況差不多,跟大量標註訓練的結果也差不多。我們希望通過這種方法,用更多數據來訓練――原來只有一兩百張,現在可以用幾千張――同時大幅降低數據標註的成本。

弱監督學習為什麼在醫學影像領域特別有效?!

下圖也展示了我們的成果:第二列是醫生標註的結果,最右邊一列是我們系統標出來的結果。可以發現,只要有癌細胞的地方,系統基本都找出來了。這是我們2012年還沒有用深度學習時達到的效果,這五年裡又取得了很多進步。

弱監督學習為什麼在醫學影像領域特別有效?!

下圖中我們改變了訓練的數據量,從20%-100%,數據越多,效果就越好。

弱監督學習為什麼在醫學影像領域特別有效?!

下圖是我們加入Area Constraints前後的對比。加入Area Constraints之前,系統把大部分細胞當成了癌細胞,加入之後它把所有正常細胞和癌細胞進行了區分。

弱監督學習為什麼在醫學影像領域特別有效?!

簡單總結一下:我們希望通過端到端的深度學習方法培育這個系統,幫助在標籤有限的情況下,進行醫學影像的處理、分類和切割。這種方法除了前面提到的大腸癌,在很多其他領域也可以用到,比如肺癌、宮頸癌等。因為它們面對的是同樣的問題,有很多數據需要標註。如果能減少標註時間,就能利用更多的數據。


分享到:


相關文章: