巴曙鬆主持、周巍主講:基因組學與人工智能---應對傳染病的挑戰

巴曙松主持、周巍主講:基因組學與人工智能---應對傳染病的挑戰

【特邀嘉賓】

生捷科技首席執行官 周巍

周巍,生物學博士,法律博士,基因組學芯片生產商生捷科技的首席執行官,他同時也是美國最大的眼科臨床診斷實驗室MVL的首席執行官。生捷科技生產超高密度DNA芯片用於基因分型、3D測序和病原體檢測。在創立生捷之前,他曾擔任基因組學技術先驅Affymetrix(現為賽默飛的一部分)分管知識產權及尖端技術的高級副總裁。周巍博士是斯坦福大學法學博士,埃默裡大學醫學院博士後,弗吉尼亞理工大學博士。他目前還擔任Fralin生物醫學研究所的顧問。

【會議紀要】(文中"我"指主講專家,文中觀點僅僅代表主講人個人觀點,不代表任何機構的意見,也不構成投資建議,僅供內部討論)

巴曙松主持、周巍主講:基因組學與人工智能---應對傳染病的挑戰

我開始關注傳染病是在埃默裡大學做博士後的時候,當時我的科研項目是大腸癌症,但我有很多朋友在美國疾控中心(CDC)工作,他們主要研究傳染病。我和這些傳染病"病毒獵手們"在一起,學到了不少關於病毒的故事。2007年我開始做傳染病檢測芯片,與中國CDC探討過關於傳染病芯片的合作項目,多年來我對傳染病一直很感興趣。從風投角度看,這個行業目前並不是很熱門,但是我覺得這次新冠病毒疫情之後,投資界對這個行業的看法將有所改變。

一、病毒是一個小程序

巴曙松主持、周巍主講:基因組學與人工智能---應對傳染病的挑戰

圖1 SARS-CoV-2病毒圖像

圖1是新冠病毒的電子顯微鏡照片。病毒幾乎是一個全生物信息的載體。病毒就像一個u盤,裡面有芯片,外面有包裝,還要有USB接口。病毒的主要零部件是RNA核糖核苷酸(存放程序),邊緣上有包膜蛋白(包裝),還有一個很重要的是刺突蛋白(接口)。病毒沒有自己的CPU,所以無法自己複製蛋白,需要把自己的信息輸入到細胞中,讓宿主細胞幫助其複製繁殖。在病毒完成複製之後,經過組裝過程,再從細胞中鑽出來。從圖2可以看出,冠狀病毒(黃色)從宿主細胞中鑽出來。

巴曙松主持、周巍主講:基因組學與人工智能---應對傳染病的挑戰

圖2 SARS-CoV-2病毒(黃色)完成繁殖

基因組就是核糖核苷酸,由4個字母組成,字母組合的變化加上修飾,或者說DNA序列,編碼了地球上幾乎所有生物的多樣性。圖3是新冠肺炎病毒的RNA序列,代表了病毒的整個基因組信息。

巴曙松主持、周巍主講:基因組學與人工智能---應對傳染病的挑戰

圖3 SARS-CoV-2核糖核苷酸(RNA)序列

二、基因組學及其在COVID-19鑑定和治療中的應用

在新冠病毒的研究過程中,基因組學起到了關鍵作用,主要是採用基因測序辦法鑑定病原體。在病毒基因組信息公開之後,科學家進行流行病學研究、藥物開發和疫苗設計將更為方便。一個傳染病開始的時候,怎麼能知道是哪個病原體導致的呢?在病原鑑定方面一般遵循柯赫氏證病律。柯赫氏證病律是確定侵染性病害病原物的經典程序:1.某種可疑的病原微生物必然常出現在這種病害的寄主上;2.從病組織中可以分離獲得該種微生物的純培養物;3.當這種培養物被接種或引入同種健康寄主上,可以產生同樣症狀;4.即從接種發病的寄主上能再次分離到與從病組織中分離獲得的相同微生物。當然,並非所有病原體都能滿足科赫氏證病律,例如HIV病毒。

2003年SARS病毒完全滿足了科赫所有的證病律。在2002年11月最開始發現SARS病例,2003年四月份發現冠狀病毒可能與疾病有關,隨後加拿大研究人員宣佈首次成功測序冠狀病毒基因組。此次新冠病毒從發現病例到基因組測序完成,整個過程速度非常快。在2019年12月發現第一個病例,2020年1月5日全基因組序列公佈並共享。目前病毒已經被分離,但是還沒看到猴子實驗(寄主實驗),中國和美國CDC應該都在進行相關實驗。

新冠病毒與其他冠狀病毒的相似性很高,因此之前的研究結論都可以使用,比如我們知道冠狀病毒由哪些蛋白質組成,還可以看病毒零部件的組成情況,也可以通過病毒家譜掌握其進化過程。這次新冠病毒基因組公佈的不同之處是,數據完全公開,公眾都可以拿到,分析軟件也是開源的。大家可以使用blast網站(https://blast.ncbi.nlm.nih.gov/Blast.cgi)進行病毒序列比較,比如該病毒基因組和SARS病毒的相似性大概在82.3%左右。最近網上有很多關於新冠病毒來源的討論,很多文章沒有通過科學家的同行評議就發表了,存在很多低質量的文章。我找到一篇比較值得相信的文章|(見圖4),這些作者是很有名的病毒學家。這篇文章中有幾個重要的結論,該文從基因組序列測算估計,該病毒是在2019年11月下旬到12月初這段時間內出現的。

巴曙松主持、周巍主講:基因組學與人工智能---應對傳染病的挑戰

圖4 SARS-COV-2病毒基因組分析

三、 基因組學與人工智能及其應用

目前為止冠狀病毒基因組的分析,主要用的是傳統生物信息分析工具,但是人工智能的應用越來越重要。人工智能的主要應用領域是圖像分析和語言分析。病毒基因組主要是字母排列組合,其實和語言非常類似。所以人工智能算法對分析基因序列非常有用。圖像分析的人工智能工具,也已經應用於基因序列分析,這是因為核酸序列可以轉換成圖像。轉成圖像後就可以用人工智能分析軟件來進行生物數據分析。

巴曙松主持、周巍主講:基因組學與人工智能---應對傳染病的挑戰

圖5 核酸序列轉換成圖像

舉兩個人工智能在生物分析方面的應用。第一個例子是利用機器學習預測攜帶人畜共患病病毒的齧齒動物。第二個例子是利用機器學習方法從測序數據中發現新病毒。我們在檢測人類全基因組時會測出一些細菌和病毒,科學家用機器學習的方法在人的基因組中找到了6000種新病毒。近年美國CDC舉行了一個流感預測挑戰賽,公眾可以使用公開數據對當年流感發生的概率進行預測判斷。

大家可能對基於基因組學的疫苗開發比較感興趣。目前在開發的疫苗和基因組學有很大相關性。科學家可以在體外合成病毒蛋白,進而用來配置疫苗。在過去十幾年中,很多公司在開發RNA疫苗。冠狀病毒的主要零部件是RNA,RNA進入人的細胞中之後就開始繁殖複製。我們利用這個原理,如果用RNA中的一小塊放在細胞中,人類細胞會合成抗原,起到疫苗的作用。

四、病毒監控和檢測是關鍵

科學家正在通過人工智能搜索冠狀病毒的潛在治療方法。實際上抗病毒藥物的開發需要很久的時間。雖然疫苗和抗病毒藥非常重要,但是病毒的監控和檢測是最關鍵的。人跟所有動物一樣,人類的身體充滿了病毒。人體約有40萬億細菌,儘管我們沒有確切知道人體中有多少種病毒,但是在自然界中,病毒的總數通常是細菌的10倍左右,因此據估計,人體中約有380萬億病毒。

我們的基因組中也記錄了與病毒相互作用的歷史。轉座子(Transposon)是整合入人類基因組的病毒留下的遺蹟,人類基因組中有多達44%的DNA是轉座子,其中最常見的兩種Alu和LINE (L1)就占人類基因組的30%以上。如果我們提高算法的敏感性,幾乎80%的人類基因組可能與病毒有關。相比之下,人類基因組編碼蛋白質只佔2%。人內源性逆轉錄病毒(HERVs)至少佔人類基因組的8%。

巴曙松主持、周巍主講:基因組學與人工智能---應對傳染病的挑戰

圖6 動物進化過程中病毒逐漸進入人類基因組

大多數動物都帶有大量病毒,其中蝙蝠尤為特殊。蝙蝠基因組的特殊設計使得其免疫系統可以容忍病毒。為了應對蝙蝠強大的免疫系統,病毒必須進化出快速在細胞中傳播的能力,這可能也是許多來自蝙蝠的病毒具有高致病性的原因。

短期來看,比較大的傳染病爆發每隔幾年就有一次,但是實際上如果從人類發展歷史來看,有無窮多次病毒和疾病的發生。病毒也是可以進化的,疫苗和藥物無法徹底控制病毒。例如,季節性流感已經存在了很長時間,我們仍然沒有100%有效的疫苗和藥物。對於傳染病的預防,早期病毒監控和識別非常重要,可以給我們一些時間來遏制病毒大流行,同時開發疫苗。

巴曙松主持、周巍主講:基因組學與人工智能---應對傳染病的挑戰

關於新冠病毒核酸的臨床診斷檢測方法,現在主要有兩種:一是基因測序,如果樣品沒有汙染,測序結果是非常精確的。但是問題是速度慢、成本高、通量低,測序結果的生物信息學解釋很複雜。二是核酸診斷,主要用的是實時逆轉錄PCR, 相對便宜,通量極高,速度快(30分鐘-2小時,不包括樣品製備)。但會受到許多因素影響,容易出現假陰性,很難檢測到病毒突變,並且難以同時檢測多種病原體。

那麼為什麼很難對普通人群進行病毒感染普檢?假設一種檢測方法有5%的假陽性,如果感染率為1.5%,那麼在1000人中有15人受到感染。大約65人將測試呈陽性,50人為假陽性,測試陽性的人中只有23%確實是陽性,77%的人為假陽性。從美國CDC流感快速檢測的數據看,如果檢測方法準確性在98%、感染率2.5%,假陽性的概率為44-61%,因此普查的效果會很差。

巴曙松主持、周巍主講:基因組學與人工智能---應對傳染病的挑戰

圖7 美國CDC流感快速檢測數據

從目前新冠病毒核酸臨床診斷檢測結果看,目前的檢出率只有30-50%,美國CDC RT-PCR試劑盒也有問題。由於時間緊迫,很多試劑盒還沒得到充分驗證就被送到一線應用。隨著套件設計和質量的提高以及操作人員的培訓強化,假陰性率應會下降。

為什麼相同的病毒會對人產生不同的結果?基因組的區別起到了很重要的作用。當年在豬流感出來時,歐洲科學家開始尋找一些基因變異,他們發現有一個基因,攜帶該基因的動物對豬流感非常敏感,會出現較嚴重的臨床後果。禽流感出現時,香港科學家發現,如果將某兩個基因型整合,可以區分並預判出較嚴重的病例。

巴曙松主持、周巍主講:基因組學與人工智能---應對傳染病的挑戰

圖8 對禽流感敏感基因的檢測識別研究

如果我們能夠準確地檢測到所有病原體,就會減少誤診的概率。現在採用CT作為輔助的診斷依據,是非常明智的做法。通過病患基因組的測序,可以對臨床結果進行預測,有利於提供個性化的護理和治療。

六、問答環節

Q1:您怎麼評價中國科學家在此次疫情中的表現?你提到目前核酸檢測檢出率僅為30-50%,這個指標是確診雙陽的關鍵指標,這個結果是否說明國內確診人數也只有實際患病人數的30-50%?

A1:從文章發表來看,中國科學家做了大量的工作,他們表現非常優秀。關於假陽性問題,通過與一線醫生交流了解到,目前假陽性比例還是比較高的,一線醫生使用CT來輔助判斷,是非常好的方法,檢測準確率會逐步提升。

Q2:因為SNP(單核苷酸多態性)的不同,是否不同種族群體,對某些病毒更敏感、死亡率更高?

A2:歐洲科學家對流感敏感性所做的研究,發現那個易感基因在白人中出現頻率很低,但是在亞裔種群中很高。但是這個不是絕對的,可能針對另一個病毒,易感基因在白人種群中出現頻率更高。

Q3:目前這個病致死原因是不是與每個人的免疫力直接相關?

A3:應該是有關係的。從流感來看,流感的敏感基因基本都和免疫系統有關係。

Q4:這次n-Cronavirus,因為研究疫苗的需要,在實驗室合成的可能性是否存在?

A4:根據知名病毒學家做的基因組分析,看不出該病毒是人工合成的樣子。這種病毒是可以人工合成的,但是從生物信息上沒看出任何跡象。

巴曙松主持、周巍主講:基因組學與人工智能---應對傳染病的挑戰

本文為內部交流紀要,未經主講嘉賓本人審閱,所載信息均為個人觀點,不代表任何機構的意見,僅供“全球市場與中國連線”的活動參會人員使用。紀要根據參會者發言整理,不保證相關信息的準確性和完整性。紀要中所述內容和意見僅供參考,不構成對所述資產的投資建議。

本文版權為“全球市場與中國連線”會議秘書處所有,本團隊對本紀要保留一切權利,未經事先書面許可,任何機構和個人不得以任何形式翻版、複印、發表或引用本紀要的任何部分。


分享到:


相關文章: