聯合科研團隊公佈新型冠狀病毒所有關鍵蛋白質同源模建結果和方法


面對當前新型冠狀病毒(2019-nCoV)感染肺炎不斷擴散的嚴峻形勢,華為雲EI醫療智能體團隊聯合華中科技大學同濟醫學院基礎醫學院李巖教授,西安交通大學第一附屬醫院劉冰教授,中科院北京基因組研究所韓大力研究員,華中科技大學同濟醫學院附屬武漢兒童醫院柯尊輝大夫組成聯合攻關團隊,針對新型冠狀病毒(2019-nCoV)的多個靶標蛋白進行了超大規模計算機輔助藥物篩選工作。篩選出五種可能對2019新型冠狀病毒(2019-nCoV)有效的抗病毒藥物(新聞鏈接:https://www.huaweicloud.com/news/2020/20200204113312294.html)。現將聯合科研團隊對2019新型冠狀病毒所有關鍵蛋白質同源模建結果和方法公佈。

背景介紹

蛋白質同源建模

蛋白質同源建模是指當未知結構的蛋白和已知結構的蛋白質在一級序列上比較相似的時候,可以把已知結構的蛋白作為模板,通過計算機的模擬和計算,基於未知結構蛋白的一級序列預測其三維空間結構。

同源建模基於兩個假設:1. 蛋白質的結構由其氨基酸序列唯一決定,如果已經知道一級序列,在理論上就可以獲取其二級結構以及三級結構。2. 蛋白質的三級結構在進化中相比於其一級序列更加保守。如果兩個蛋白質的氨基酸序列有50%相同,那麼約有90%的a-碳原子的位置偏差不超過3 Å。

以SARS-CoV蛋白質結構作為模板構建2019-nCoV蛋白質三維結構

2019-nCoV和SARS-CoV非常近似,氨基酸的序列一致性達到了76.47%。同時SARS-COV的蛋白質的三維結構基本上已經被解析出來,所以我們可通過這些已知的蛋白質三維結構作為模板,構建2019-nCoV的蛋白質結構,並進而指導藥物研發。

數據和方法

2019-nCoV蛋白質一級序列提取

2019-nCoV的基因組序列參考NCBI上已公開的序列:NC_045512.2。由於基因組註釋數據的缺失,無法直接獲取其所有功能蛋白質的一級序列。因此我們將SARS-CoV的各個蛋白對應的序列比對到2019-nCoV基因組上,選擇best match的比對區域,作為該蛋白對應的在2019-nCoV的一級序列。通過這種方法,我們獲得了2019-nCoV的共計20個蛋白質的序列,其中包含非結構蛋白16個(NSP1-16),結構蛋白4個(S,M,N,E)。

同源建模

Swiss model用於同源建模

Swiss-model是自動化蛋白質同源建模工具,使用的過程中需要用戶輸入目的蛋白的序列,也可以同時指定參考蛋白質模板,在沒有指定模板的情況下,系統會自動選擇匹配度最高的模板。

我們在通過Swiss-model做同源建模的步驟和結果如下:

Step 1: 輸入蛋白質序列

在swiss-model主頁 (https://swissmodel.expasy.org/) 點擊“Start modeling”並上傳蛋白質的fasta序列。點擊“Search For Templates”,開始搜索最模板蛋白。

聯合科研團隊公佈新型冠狀病毒所有關鍵蛋白質同源模建結果和方法

Step 2: 選擇合適的模板蛋白

Swiss-model會給出通過一級序列匹配到的模板蛋白,以及每一個模板蛋白的匹配度和模板蛋白的參數,通過以下標準,我們選擇最優的模板蛋白用於同源建模:

  1. 目的蛋白和模板蛋白一級序列一致性要求:identity>30%;優先選擇identity最高的模板蛋白;
  2. 優先選擇SARS-COV的模板蛋白用於同源建模;
  3. 當identity比較相似的時候,優先選擇通過高精度X-ray方法構建晶體結構的模板;如果沒有X-ray,需要點進PDB看蛋白結構分辨率,優先選分辨率高的;
  4. 如果Oligo State存在有Homo和heter,就兩個都要選擇。
聯合科研團隊公佈新型冠狀病毒所有關鍵蛋白質同源模建結果和方法

Step 3:同源建模

選定好最優的模板蛋白之後,點擊頁面的“Build Models”,即可自動的做同源建模;對於序列比較短的蛋白(<100 殘基),該過程通常花費幾分鐘;對於序列比較長的蛋白(>1000 殘基),該過程通常花費約二十分鐘左右; 建模完成後,可直接下載模板蛋白和目的蛋白的三維空間結構用於後續的分析。

聯合科研團隊公佈新型冠狀病毒所有關鍵蛋白質同源模建結果和方法

Step 4:分子動力學模擬

同源建模得到的蛋白質結構可以用於分子動力學(Molecular Dynamics)模擬。分子動力學模擬可以通過GROMACS等工具完成,這一步驟通常比較耗時。華為雲醫療智能體平臺已經提供加速版的GROMACS,加速後的GROMACS消耗的時間僅有傳統版本的1/6。

聯合科研團隊公佈新型冠狀病毒所有關鍵蛋白質同源模建結果和方法

結果

建模結果統計

針對2019-nCOV的20個蛋白質一級序列,有15個蛋白和SARS-COV的蛋白質有比較高的同源性,identity>70%;通過蛋白質三維工具可視化之後,也可以看到這些蛋白質的三維空間構象和模板蛋白比較相似;

其中有一個蛋白質,NSP4,在SARS-COV中沒有很好的同源蛋白,是以小鼠肝炎病毒的A59進行建模,其identity>60%;

另外有四個蛋白質的同源建模效果不是很好,其中NSP2,NSP6和M均沒有很好的目的模板,匹配度最好的蛋白質序列的identity < 30%;所以建模的結果不太理想;同時NSP11蛋白質的長度只有11個殘基,長度太短,不滿足建模要求;

目的蛋白的長度,模板蛋白的選擇和同源建模的參數整理在以下的表格中供參考:

聯合科研團隊公佈新型冠狀病毒所有關鍵蛋白質同源模建結果和方法

數據和可視化

模板蛋白和同源建模得到的2019-nCoV蛋白質三維結構都以PDB格式進行保存,為了方便用戶查閱,華為雲醫療智能體平臺的Notebook工具已經內置了可視化所需要的插件和工具,用戶可以交互式拖動和展示感興趣的蛋白質三維結構。

聯合科研團隊公佈新型冠狀病毒所有關鍵蛋白質同源模建結果和方法

以上涉及到的數據、算法和工具都已經集成在華為雲醫療智能體平臺,基於華為雲AI昇騰集群服務的強大算力,用戶可省時省力地完成端到端的分析。


分享到:


相關文章: