「肺炎 X 光病灶識別」挑戰:面對疫情,開發者能做的還有很多

雷鋒網 AI 開發者按:自 AI 迅速發展以來,除互聯網之外,其在醫療方面也是屢屢作出突出貢獻。無論是高效的檢測速率,還是高精度的診斷結果,都幫助醫者大大減少了工作量,為病人奪得了更寶貴的救治時間。

就在最近全球緊密關注的新型冠狀病毒戰「疫」中,AI 再次發揮了其高效特性。在由浙江省疾控中心、阿里巴巴達摩院、傑毅生物共同研發的一套全新檢測平臺中,研究者們巧妙利用 AI 算法,最終使得病毒基因分析的速度由半天(約 8 小時)縮短到半小時!

而作為公民兼開發者的我們,儘管大多數人無法參與這次的抗疫開發實戰中,但我們可以加入 AI 研習社【肺炎檢測挑戰賽專題】,將我們所擁有的力量,以另一種方式貢獻到這次抗疫支援行動中。

「肺炎 X 光病灶识别」挑战:面对疫情,开发者能做的还有很多

AI 能為這場戰「疫」做些什麼?

眾所周知,要贏得這場瘟疫戰勝利的關鍵,一方面在於通過確診從而嚴密控制疫情擴散;另一方面則是特效疫苗的成功研製。而整個過程中,無論是病毒基因檢測,還是疫苗研發,都需要大量的時間。

以前在面對疫情時,我們的醫者只能通過人工進行長時間的反覆研究、反覆修改、反覆檢測,然後獲得預期的疫苗,但現在我們有了 AI——這一能夠對海量數據進行精密計算的得力助手,這將大大有利於我們提高研究效率,更快取得這場沒有硝煙戰爭的勝利!

「肺炎 X 光病灶识别」挑战:面对疫情,开发者能做的还有很多

圖片來源:CNBC 所有者:CNBC

根據各個機構公佈的數據,新型冠狀病毒全基因組序列全長 29847bp,是基因組序列最長的病毒之一。而在 2 月 1 日浙江省疾控中心上線的自動化全基因組檢測分析平臺中,就充分利用了阿里達摩院研發的 AI 算法,替代了原有的核酸檢測方法。

相比之下,AI 檢測除了將原來數小時的新型冠狀病毒肺炎疑似病例基因分析縮短至半小時,大幅縮短確診時間之外;還彌補了原有方法只能檢測到病毒基因局部的侷限,能夠更加精準檢測出病毒的變異情況。

「肺炎 X 光病灶识别」挑战:面对疫情,开发者能做的还有很多

新型冠狀病毒結構

AI 檢測核心技術

在傳統的病毒基因分析過程中,整個流程涵蓋主要包含了:樣本標記、分裝;核酸提取;熒光定量 PCR 體系配製;上機檢測;數據報告分析。

可以發現,其中的病毒基因的檢測和分析是兩種不同的工作。據瞭解,這次提高檢測效率的核心則在於將檢測的結果進行「數據化」,然後交由達摩院開發的算法進行分析。

其中阿里達摩院的一位算法專家在採訪中表示,每次測序過程會產生海量的數據,基於一系列優化的算法,可以加快樣本病例的檢測速度;在這個環節裡,算力和算法同樣重要。

「肺炎 X 光病灶识别」挑战:面对疫情,开发者能做的还有很多

達摩院算法專家顧斐博士在疾控中心基因檢測分析現場

而在算法方面,具體而言,在序列比對過程中開發者增加了分佈式設計,可以有效提升比對效率。而在病毒序列拼接階段則用到了分佈式設計的 de Bruijn 圖算法,從而將病毒拼接的速度由 30 分鐘-1 小時縮短到 15-30 分鐘。

而且截止目前,檢測結果還未出現不準確的情況;通過這樣的檢測方式,甚至變異病毒也能得到精準的檢測結果。它能夠對疑似病例的病毒樣本進行全基因組序列分析比對,避免因為病毒變異造成的漏檢情況。

「肺炎 X 光病灶识别」挑战:面对疫情,开发者能做的还有很多

新型冠狀病毒的電鏡照片 圖片來源:中國疾控中心

我們的戰「疫」行動

通過這次 AI 抗疫,我們可以看到,AI 檢測相關技術確實能夠大幅縮短醫生的工作量,並且提高專業診斷的效率和準確性。

本次由 2019-nCoV 病毒引發的肺炎疫情仍在持續。因此,AI 研習社(https://god.yanxishe.com/)重啟「肺炎賽題」,希望大家儘量減少外出,安心在家打比賽、拿獎金、勤洗手、戴口罩;全國人民上下一心,共抗疫情。

「肺炎 X 光病灶识别」挑战:面对疫情,开发者能做的还有很多

大賽主頁提供了「肺炎 X 光片」相關的數據集,包括了訓練集 20013 張以及測試集 6671 張。比賽任務即:編寫相應代碼,訓練模型正確識別肺炎 X 光病灶數量~

開始時間:2020-02-04 09:00:00

結束時間:2020-03-05 00:00:00

大賽基礎獎金池為 5000 元,除了比賽原有的三種獎項——參與獎(30%)、突破獎(20%)、排名獎(50%);AI 研習社春節紅包活動仍在繼續,邀請好友參賽得獎金,獎金直接劃入個人賬戶,視同比賽獎金。以上四種獎項均互不衝突哦!

「肺炎 X 光病灶识别」挑战:面对疫情,开发者能做的还有很多

數據集部分圖片示例

數據集下載鏈接:

http://1t.click/bxSW

春節紅包活動:

https://god.yanxishe.com/competition/activity/jumpPullNewer

評審標準

最終提交結果文件如下所示,其中,第一個字段位:測試集圖片 ID(注意 ID 即文件名是從 0 開始的);第二個字段:病灶數量(0、1、2、3、4)。

Ps:建議使用 UTF-8(BOM)編碼,共計 6671 個結果,數量不足可能導致無法評分哈~

整個比賽的評審完全透明化,我們將會對比選手提交的結果文件,按照如下公式計算得分,其中:

  • True:模型分類正確數量

  • Total :測試集樣本總數量

每日 24:00,我們也會將最新結果更新在官網排行榜上。眾志成城,武漢加油!

「肺炎 X 光病灶识别」挑战:面对疫情,开发者能做的还有很多

雷鋒網 AI 開發者 雷鋒網


分享到:


相關文章: