北大樊春:研發新冠病毒疫苗,高性能計算“顯身手”

作者 | 樊春(北京大學科學與工程計算中心繫統室主任、高級工程師)

整理 |趙廣立


對於包括新型冠狀病毒在內的醫學研究,我其實是“門外漢”,但是因為從事高性能計算這個行業,認識很多使用高性能計算的應用專家,其中包括生物、化學和醫學的專家,所以有機會從門外一窺他們的工作。


使用生物信息學找到病毒來源


對病毒進行基因測序,並利用測序結果,採用生物信息學的方法來比對和查找,找到病毒來源以及傳播的最大概率宿主。


這其中,“生物信息學方法比對和查找病毒來源”部分需要計算資源。


要得到正確的結果,最重要的還是科學家採用科學嚴謹的方法來做工作,高性能計算設施能夠加速這一過程。


這個過程中可能需要跑BLAST程序。BLAST主要用來尋找同源序列,此外還可能要用到基因組組裝,多序列比對,進化分析相關的軟件。


生物信息學相關軟件非常非常多,我們在北京大學高性能計算公共平臺上安裝過一百多個,但在這個問題中科學傢俱體用哪些,與科學家的工作習慣關係很大。


目前,病毒的序列都已經是公開的,病毒的簡單序列比對消耗的資源並不多,在線數據庫就能做。


但是要做複雜詳細的研究,還是必須要有高性能算的環境來加速。想必現在已有大量科學家如此開展工作。


2019新型冠狀病毒資源庫(http://www.cas.cn/syky/202001/t20200122_4732764.shtml)已經公佈。


但是目前還沒有完全確認病毒來源,所以序列比對的工作還要繼續。


使用超算加速病毒疫苗或者特效藥的研製


現代製藥一般首先是搞清楚病毒的結構,然後再研究什麼樣的小蛋白分子能夠與病毒結合,使病毒失去功能。


獲知病毒結構

要獲知病毒結構,常見有兩種方法。


第一種方法是,通過基因測序結果搞清楚結構。


這種方法主要靠“猜”,但要使用統計的方法保證“猜”的結果比較靠譜。一般而言,對蛋白質結構預測“猜”的方法主要有兩個途徑。


一個途徑是從頭模擬,目前Google的人工智能程序AlphaFold大概是猜測蛋白質結構最好的方法。


訓練AlphaFold使用了相當大的算力,當然最主要還是設計AlphaFold的想法。


另一個途徑就是根據序列上類似的蛋白直接進行同源建模,序列相似性越高結構模擬可靠性就越高。這方面的軟件很多,常用的如swiss-model和I-TASSER等。


新冠病毒的基因序列和SARS等同源病毒的序列同源性非常高。


這些同源病毒都已經有高分辨率的結構,新冠病毒可以根據SARS病毒的結構進行結構預測,所以從頭模擬(第一個途徑)可能用得不多。


用AlphaFold等做蛋白質結構預測需要獲得蛋白質序列,一般可獲得的是基因序列。


從基因序列也可以獲得蛋白質序列,所以利用AlphaFold獲得病毒結構也是可能的。


第二種方法是,通過成像技術獲知病毒結構。


成像技術是搞懂生物微觀基本結構的最主要方法。


常用的分析蛋白結構成像技術主要分三類:核磁共振、冷凍電鏡和X射線晶體學方法,且三種方法各有適用範圍。


X射線晶體學方法最近有一個較好的結果,這裡簡單介紹一下。


近幾年冷凍電鏡破解結構相對熱門,最近還拿了諾貝爾獎。


不過,使用冷凍電鏡技術,病毒的培養、提純和制樣需要一定時間,沒有測序那麼快,不過一旦制樣完成後就可以成像(拍照片)和重建(通過照片算三維結構)了。


在這過程中,高性能計算能夠加速三維結構的重建,主要用到RELION軟件。冠狀病毒整體分子量較大,非常適合利用冷凍電鏡方法對這個病毒的結構進行重建。


使用X射線獲得的新冠病毒組成蛋白之一的結構也有人給出,上海科技大學和中國科學院上海藥物研究所聯合研究團隊公佈的“新型肺炎冠狀病毒3CL水解酶高分辨率晶體結構”就是這種方法。


一般X射線晶體學方法進行結構解析要先對蛋白質進行純化、結晶,需要一定的時間。


所以在如此短的時間內就就做出其中一個蛋白的結構很不容易,為他們點贊!

找到能夠讓病毒蛋白質分子失效的小分子


小分子藥物可競爭性地結合病毒蛋白質的功能位點,這樣一來病毒蛋白質就不能和它真正的底物結合,從而抑制病毒蛋白質的活性。


Autodock是一個比較普遍使用的方法,目前大約有700萬個小分子的小分子庫。


每個小分子,要通過各個角度與蛋白質結合來觀察能量釋放情況,結合之後釋放能量越多,結合就越穩定,那麼這個小分子就越有可能做成藥物。


這其中的計算任務不是很大,但是需要的計算總量很大,任務極其多,使用高性能計算(HPC)或者高通量計算(HTC)方法比較合適。


現在應該也有很多組在做這個工作,中國科學院上海藥物研究所和上海科技大學聯合研究團隊發現一批可能對新型肺炎有治療作用的老藥和中藥,就是這方面的工作。


另外,通過計算的方法找到一批可能的小分子後,接下來就是生化實驗,以確定計算軟件找到的東西是否真的可用。


目前疫苗的研發應該還是研發週期的問題,考慮到安全性試驗,需要較長的時間。從一個外行的角度看,現在情況特殊,也許速度會快一些。


事實上現在沒有任何一種冠狀病毒的疫苗,不管新的舊的,包括S蛋白(S蛋白是病毒入侵的關鍵蛋白)入侵的分子結構機理都是不清楚的。


搞清楚這些過程也許需要成像技術(冷凍電鏡)與分子動力學(MD)共同作用。


成像技術中大多用冷凍電鏡,分子動力學用NAMD、gromacs等模擬軟件。這些分子動力學軟件運行一般也需要高性能計算平臺。


不過,冷凍電鏡做動力學過程非常困難,因為即使靜態的成像,所用到的數據量和已經非常大,相應的的算力要求已經非常高。


(這篇文章在使用冷凍電鏡做動力學過程領域做了一些探索:https://www.nature.com/articles/s41586-018-0736-4)


除此以外,還可以通過分子動力學的模擬,大致確定病毒的傳染性。目前也有許多科學家做相關工作。


分享到:


相關文章: