新冠肺炎CT數據集開源,疫情篩查前景廣闊

新冠肺炎(COVID-19)是新發呼吸系統傳染病,該病的確診標準雖是病毒核酸檢測,但CT檢查作為一線技術具有準確、快速、廉價的優點,在新冠肺炎的篩查和檢測方面前景廣闊。


近日,在《Computer Science》發表的一篇論文中,研究者構建了一個開源的COVID-CT數據集,其中包含275個COVID-19呈陽性的CT掃描圖像。該研究旨推動使用深度學習方法分析CT來預測是否感染COVID-19的研究與發展。


研究者在這個數據集上訓練了一個深度卷積神經網絡,其F1 Score為0.85,這是一個很有前途的性能,但還需要進一步改進。

獲取數據與代碼:

https://github.com/UCSD-AI4H/COVID-CT


1. 介紹


COVID-19是一種傳染病,截至2020年3月30日,全球共有775306人感染、37083人死亡,控制這種疾病傳播的主要障礙之一是缺乏有效的檢測手段。


當前的檢測主要基於逆轉錄聚合酶鏈反應(RT-PCR),其結果需要4到6個小時,與COVID-19的傳播速度相比,檢測所需的時間太長了。除了效率低下外,RT-PCR試劑盒短缺也是一個問題。

這促使研究者探索開發科替代的檢測方法,它可能比RT-PCR更快、更便宜且易得,但其效果卻與RT-PCR一樣準確。研究者尤其對CT掃描感興趣。多項關於CT掃描在COVID-19篩選和檢測中有效性的研究中證明,CT是有希望的。


然而,出於隱私考慮,這些作品中使用的CT掃描並沒有共享出來,這極大地阻礙了基於CT的COVID-19更先進的AI檢測方法的研究和開發。

為了解決這個問題,研究者構建了一個包含275個COVID-CT掃描呈陽性的COVID-19 CT數據集,並對公眾開放,以促進COVID-19 CT檢測的研發。


研究者從medRxiv和bioRxiv的760篇預印本論文中提取了關於COVID-19的CT圖像,並通過閱讀這些圖像說明,手動選擇包含COVID-19臨床表現的圖像。


研究者在183例COVID-19呈陽性的CT掃描圖像和146例COVID-19呈陰性的CT掃描圖像上,訓練了一個深度學習模型來預測COVID-19的CT圖像是否為陽性。


新冠肺炎CT數據集開源,疫情篩查前景廣闊

圖1:對於包含多個CT掃描的圖像,研究者手動將其分割為單獨的CT

在35個COVID CT 圖像和34個非COVID CT圖像上測試,模型的F1得分為0.85。結果表明,在COVID-19的篩選和檢測中,CT掃描具著良好的應用前景,但還需要更先進的方法來進一步提高其準確性。

2. 創建數據集


本節中將描述如何構建COVID-CT數據集。研究者收集了1月19日—3月25日,在medRxiv1和bioRxiv2上發表的關於COVID-19的760篇預印本論文。這些預印本論文中有許多關於COVID-19的病例,其中一些論文中有COVID-19的CT掃描圖像。

CT掃描圖像與描述CT臨床表現的說明相關。研究者使用PyMuPDF3來提取預印本PDF文件的底層結構信息,並定位論文中的所有圖片,包括分辨率、大小等數字的質量都保存得很好。

從結構信息中,研究者還定位了與圖片相關的說明。


研究者首先手動選擇所有的CT掃描,然後通過閱讀每張CT掃描的說明,來判斷其COVID-19是否陽性。如果不能從圖片說明判斷,研究者便在預印本中找到分析這個圖像的文本來做出判斷,對於包含多個CT掃描作為子圖的圖像,研究者手動將其分割為單獨的CT圖像,如圖1所示。

新冠肺炎CT數據集開源,疫情篩查前景廣闊

如圖2:CT掃描COVID-19呈陽性的示例

最後,研究者獲得了275個COVID-19呈陽性的CT掃描圖像,這些CT圖像的大小不同。最小高度、平均高度和最大高度分別為153、491和1853。最小寬度、平均寬度和最大寬度為124、383和1485。這些掃描圖像來自143例患者,圖2顯示了COVID-19 CT掃描的一些示例。

3. 方法


研究者在此數據集上開發了一個基準方法,供感興趣的人進行基準測試。

雖然該數據集是關於COVID-19最大的公開可用的CT數據集,但它仍然是比較小的數據集。在這樣的數據集上訓練深度學習模型很容易導致過度擬合:模型在訓練數據上表現良好,但在測試數據上的泛化能力很差。

為了解決這個問題,研究者採用了兩種方法:遷移學習和數據增強。

遷移學習的目的是將某個領域或任務上學習到的知識或模式應用到不同但相關的領域或問題中。

具體來說,研究者使用大量的胸部CT圖像來預訓練一個深度卷積神經網絡,然後在COVID-CT數據集上對其進行微調。

數據增強的目的是合成近似正確的圖像-標籤對,即在大多數合成的圖像標籤對中,標籤是對圖像的正確註釋。

3.1 遷移學習

為了緩解訓練數據的不足,研究者採用了遷移學習。具體來說,研究者使用NIH發佈的ChestX-ray14數據集對DenseNet進行預訓練,然後在COVID-CT數據集上微調預訓練的DenseNet。

3.2 數據增強


另一種緩解數據不足的方法是數據增強:即從有限的訓練數據中,創建新的圖像標籤對,並將合成的圖像標籤對添加到訓練集中。通過隨機仿射變換、隨機裁剪和翻轉來增強每個訓練圖像。隨機仿射變換包括平移和旋轉。

4. 實驗


4.1 實驗設置

新冠肺炎CT數據集開源,疫情篩查前景廣闊

為了訓練一個預測CT圖像是COVID還是非COVID的二分類模型,研究者收集了195例COVID呈陰性的CT圖像。研究者根據患者將數據集分為訓練、驗證和測試集。

表1總結了每組中COVID和非COVID圖像的數量,所有圖像都被調整為224 * 224的大小。在驗證集上調整超參數進行調優。使用Adam對網絡中的權值參數進行優化,學習率為0.0001,餘弦調度,最小批量為4。使用五個指標來評估該方法:(1)正確率;(2)準確率;(3)召回率;(4)F1分數;(5) ROC曲線下面積(Area under ROC curve, AUC)。所有指標都是越高越好。

5. 結果


新冠肺炎CT數據集開源,疫情篩查前景廣闊

表2:通過該基準方法實現的正確率、精度、召回率、F1和AUC。

可以看出,該方法的準確率很高,但需要更先進的方法來提高召回率。

6. 結論


研究者建立了一個公開的COVID-19 CT掃描數據集,以推動AI在疫情篩查方面的發展,使用CT來篩選和測試COVID-19患者。該數據集包含275張COVID-19 呈陽性的CT掃描圖像。


在數據集上訓練的深度學習模型 F1 Score為0.85,下一步,研究者將會繼續改進該方法以達到更高的精度。


論文鏈接:

https://arxiv.org/pdf/2003.13865.pdf


文章鏈接地址:

https://mp.weixin.qq.com/s/bjUiX3ZFemYcdOW2a6-_KA


新冠肺炎CT數據集開源,疫情篩查前景廣闊


分享到:


相關文章: