阿里達摩院專家解密:AI算法將肺炎疑似病例基因分析縮短至半小時的背後

到今天為止,肺炎疫情的發展依舊是每個人頭腦裡繃得最緊的一根弦。

截至2月1日24時,國家衛生健康委收到31個省(自治區、直轄市)和新疆生產建設兵團累計報告確診病例14380例,疑似病例有19544例。

儘管疫情嚴重,但一個好消息是,AI正成為前線醫務人員的重要加持力量。

雷鋒網瞭解到,2月1日,浙江省疾控中心上線自動化的全基因組檢測分析平臺,利用阿里達摩院研發的AI算法,可將原來數小時的疑似病例基因分析縮短至半小時,大幅縮短確診時間,並能精準檢測出病毒的變異情況。

阿里达摩院专家解密:AI算法将肺炎疑似病例基因分析缩短至半小时的背后

達摩院算法專家顧斐博士在疾控中心基因檢測分析現場

核酸檢測方法的侷限性

在這麼多天科普知識的瘋狂輸出下,我們可以知道的一點是,新型冠狀病毒感染的肺炎患者的臨床表現與流感的臨床表現差別並不大。

因此,醫務人員口中所說的“小盒子”——核酸檢測試劑盒的檢測結果對於確診來說非常重要。

在核酸檢測試劑盒開發過程中,基因組測序是必不可少的步驟,這個過程會耗費數日。一旦完成,核酸檢測試劑盒的開發將變得很快。

那麼,試劑盒數量夠了就行了嗎?遠遠不是。

此前,北京大學醫學部病原生物學系教授,美國伯明翰阿拉巴馬大學醫學院微生物學系分子病毒學終身教授羅光湘曾表示,核酸檢測試劑盒並不能獨立使用,需要搭配PCR儀器共同進行檢測,而這種儀器只有規模較大的醫院才有,社區醫院、縣城醫院或許還未普及,只能送往中心城市的醫院或疾控中心進行檢測。

所以,一開始,新型冠狀病毒核酸檢測只能在湖北省疾控中心進行,而且核酸檢測試劑盒生產較少,就出現了疑似患者確診困難,得不到及時救治的狀況。

此外,新型冠狀病毒本身也很“難纏”。

公開信息顯示,該病毒是基因組序列最長的病毒之一,全基因組序列全長29847bp,臨床診斷需要將患者樣本與該病毒基因序列進行比對才能確定診斷結果。

達摩院算法專家顧斐博士表示,目前醫院普遍採用核酸檢測方法,只能檢測到病毒基因的局部。一旦病毒發生變異,就可能出現漏檢的情況。

在接受雷鋒網採訪時,一位知情人士透露,核酸檢測方法是一種用於放大擴增特定DNA片段的分子生物學技術,能利用聚合酶鏈式反應將微量的DNA大幅擴增,從而檢測出帶有特定基因片段的病毒,也就是說這種方法只能檢測到樣本基因的局部。

阿里达摩院专家解密:AI算法将肺炎疑似病例基因分析缩短至半小时的背后

(新型冠狀病毒結構)

所以,面對洶湧的疫情,單靠“人肉輸出”來獲得有漏檢風險的結果,目測已經不是一個好辦法了,大量疑似的患者仍然存在。

AI算法成破局利器

嚴峻的抗疫形勢下,AI成為破局的一把利器。

此次研發的自動化全基因組檢測分析平臺屬於高通量測序,由浙江省疾病預防控制中心、阿里達摩院醫療AI團隊和傑毅生物技術公司共同研發,突破之處在於大幅縮短了檢測時間。

針對平臺的合作細節以及未來的應用規劃,雷鋒網與阿里達摩院的一位算法專家進行了採訪。

Q:傳統的病毒基因分析過程,主要包含哪些步驟和階段?

A:一般而言整個流程涵蓋:樣本標記、分裝;核酸提取;熒光定量PCR體系配製;上機檢測;數據報告分析。


Q:這麼一套平臺,達摩院這邊投入了多少人力,什麼時候開始做,前後花了多長時間?

A:疫情發生後,達摩院投入十餘人研發這套新平臺,例如針對新冠病毒基因的特徵進行了分析,基於PDB等公共數據集的數據進行算法的優化訓練,也有算法專家奔赴浙江省疾控中心前線,與兩個合作方溝通合作,才研發了這套平臺。


Q:既然是AI算法,就存在準確性的問題,達摩院的AI算法、模型在各個階段應用過程中是否需要考慮準確性的問題?

A:目前,沒有不準確的情況。在檢測過程中,對於算法而言,需要做到100%的準確率。


Q:病毒基因的檢測和分析是兩種不同的工作,你們是如何合作的?

A:傑毅生物開發了全自動高通量測序建庫儀,把整體常規人工需要12小時的工作縮短到2個小時。簡單一點理解,就是檢測的結果進行“數據化”,然後交由達摩院開發的算法進行分析。每次測序過程會產生海量的數據,基於一系列優化的算法,可以加快樣本病例的檢測速度。在這個環節裡,算力和算法同樣重要。


Q:這樣一個幫助醫務人員在減負和提效之間保持平衡的平臺,未來的應用方法和合作途徑如何?

A:接下來,全基因組檢測分析平臺會在全省大規模應用。達摩院會與合作伙伴共同將這套技術推廣至全國。對於是否有其他省市醫院尋求使用,暫時不好透露。

點睛之筆——分佈式設計的算法

值得注意的是,達摩院這次的分佈式設計算法是整個平臺的“點睛之筆”。

在序列比對過程中,達摩院對算法增加了分佈式設計,提升了比對效率;樣本基因分析的速度由數小時縮短到半小時;在病毒序列拼接階段,達摩院使用分佈式設計的de Bruijn圖算法,變異病毒也能精準檢測,病毒拼接的速度由30分鐘-1小時縮短到15-30分鐘。

除此之外,不同於傳統核酸檢測方法,這一平臺還可以檢測到病毒的全貌,對疑似病例的病毒樣本進行全基因組序列分析比對,避免因為病毒變異造成的漏檢情況。

本次分析病毒檢測和病毒變異部分主要基於開源算法,設計分佈式算法以加速分析流程。病毒序列拼接完成後,通過設計BiLSTM+DNN的方式訓練模型預測病毒蛋白二級結構。

與此同時,達摩院還在研究基於序列的蛋白質三維結構預測模型以及藥物篩選模型。

浙江省疾控中心基因測序負責人孫逸博士表示:“該平臺基於阿里雲的強大算力與達摩院新算法可以為病毒的解析提供支撐,基於該平臺,未來還可以在短時間內將檢測範圍覆蓋整個確診病例,也為後續疫苗與藥物研發打下了堅實基礎。”

一場關乎全民的技術戰

為了抗疫這場關乎全民的戰役,國內的科技巨頭第一時間站了出來。

為了幫助加速新藥和疫苗研發,此前,阿里雲宣佈將向全球公共科研機構免費開放一切AI算力。

目前,中國疾控中心已成功分離病毒,但在新藥和疫苗研發期間,需要進行大量的數據分析、大規模文獻篩選和科學超算工作。阿里雲的AI算力,可以支持病毒基因測序、新藥研發、蛋白篩選等工作,幫助科研機構縮短研發週期。

而且,除了這次的全基因組檢測分析平臺,達摩院還在春節期間,用五天時間推出了“智能疫情機器人”,目前正在為浙江省新型肺炎公共服務與管理平臺提供服務。

今天(2月2日),“7000人鏖戰,9天建成”的武漢火神山醫院正式交付。可以相信的是,在防疫戰役越來越深入的情況下,全基因組檢測分析平臺會像火神山醫院一樣,用AI的力量為民眾和醫務工作者帶來更多的信心。


分享到:


相關文章: