新冠病毒蛋白同源模建結果方法公佈:華為雲聯合國內高校最新研究

新冠病毒蛋白同源模建結果方法公佈:華為雲聯合國內高校最新研究

截至目前,因新型冠狀病毒感染造成的確診患者數量已經超過 3 萬名。作為疫情防控的關鍵環節,針對新冠肺炎的對症藥物研發牽動著許多人的心。近日,來自華中科技大學、西安交通大學、華為雲等多所機構的聯合團隊公佈了 2019 新型冠狀病毒所有關鍵蛋白質同源模建結果和方法,研究成果通過華為雲面向生物醫藥研究機構開放,助力抗病毒藥物研發。

新冠病毒蛋白同源模建結果方法公佈:華為雲聯合國內高校最新研究

抗疫已進入決戰階段,一方面,防控和治療仍是當前最重要的工作,另一方面,科研機構和相關企業也正在積極尋求更多可用於對症治療的藥物。多項新型冠狀病毒相關研究相繼展開,但相比於其他類型的疾病,抗病毒藥物的研發和臨床試驗都更加困難,目前還未發現針對新型冠狀病毒明確有效的特效藥。

由華中科技大學同濟醫學院基礎醫學院、華中科技大學同濟醫學院附屬武漢兒童醫院、西安交通大學第一附屬醫院、中科院北京基因組研究所、華為雲組成的聯合科研團隊,針對 2019 新型冠狀病毒的多個靶標蛋白,對 8506 種上市或者正在進行臨床試驗的藥物中進行超大規模計算機輔助藥物篩選工作,目前已取得第一階段成果。

研究篩選出了五種可能對 2019 新型冠狀病毒(2019-nCoV)有效的抗病毒藥物,分別是 Beclabuvir,沙奎那韋(Saquinavir),比特拉韋(Bictegravir),洛匹那韋(Lopinavir),多替拉韋(Dolutegravir)。

新冠病毒蛋白同源模建結果方法公佈:華為雲聯合國內高校最新研究

本文將對該研究的 2019 新型冠狀病毒所有關鍵蛋白質同源模建結果和方法進行詳細介紹。

以SARS-CoV蛋白質結構作為模板構建2019-nCoV蛋白質三維結構

蛋白質同源建模是指當未知結構的蛋白和已知結構的蛋白質在一級序列上比較相似的時候,可以把已知結構的蛋白作為模板,通過計算機的模擬和計算,基於未知結構蛋白的一級序列預測其三維空間結構。

同源建模基於兩個假設:1. 蛋白質的結構由其氨基酸序列唯一決定,如果已經知道一級序列,在理論上就可以獲取其二級結構以及三級結構。2. 蛋白質的三級結構在進化中相比於其一級序列更加保守。如果兩個蛋白質的氨基酸序列有 50% 相同,那麼約有 90% 的 a-碳原子的位置偏差不超過 3 Å。

鑑於 2019-nCoV 和 SARS-CoV 非常近似,氨基酸的序列一致性達到了 76.47%。同時 SARS-COV 的蛋白質的三維結構基本上已經被解析出來,所以研究者以這些已知的蛋白質三維結構作為模板,構建了 2019-nCoV 的蛋白質結構。

數據和方法

2019-nCoV蛋白質一級序列提取

2019-nCoV 的基因組序列參考 NCBI 上已公開的序列:NC_045512.2。由於基因組註釋數據的缺失,無法直接獲取其所有功能蛋白質的一級序列。研究者將 SARS-CoV 的各個蛋白對應的序列比對到 2019-nCoV 基因組上,選擇 best match 的比對區域,作為該蛋白對應的在 2019-nCoV 的一級序列。通過這種方法,獲得了 2019-nCoV 的共計 20 個蛋白質的序列,包括非結構蛋白 16 個(NSP1-16)與結構蛋白 4 個(S,M,N,E)。

同源建模:Swiss model

Swiss-model 是自動化蛋白質同源建模工具,使用的過程中需要用戶輸入目的蛋白的序列,也可以同時指定參考蛋白質模板,在沒有指定模板的情況下,系統會自動選擇匹配度最高的模板。

  • Step 1: 輸入蛋白質序列

在 swiss-model 主頁 (https://swissmodel.expasy.org/) 點擊「Start modeling」並上傳蛋白質的 fasta 序列。點擊「Search For Templates」,開始搜索最模板蛋白。

新冠病毒蛋白同源模建結果方法公佈:華為雲聯合國內高校最新研究


  • Step 2: 選擇合適的模板蛋白

Swiss-model 會給出通過一級序列匹配到的模板蛋白,以及每一個模板蛋白的匹配度和模板蛋白的參數,基於以下標準選擇最優的模板蛋白用於同源建模:

  • 目的蛋白和模板蛋白一級序列一致性要求:identity>30%;優先選擇 identity 最高的模板蛋白;
  • 優先選擇 SARS-COV 的模板蛋白用於同源建模;
  • 當 identity 比較相似的時候,優先選擇通過高精度 X-ray 方法構建晶體結構的模板;如果沒有 X-ray,需要點進 PDB 看蛋白結構分辨率,優先選分辨率高的;
  • 如果 Oligo State 存在有 Homo 和 heter,就兩個都要選擇。
新冠病毒蛋白同源模建結果方法公佈:華為雲聯合國內高校最新研究


  • Step 3:同源建模

選定好最優的模板蛋白之後,點擊頁面的「Build Models」,即可自動的做同源建模;對於序列比較短的蛋白(<100 殘基),該過程通常花費幾分鐘;對於序列比較長的蛋白(>1000 殘基),該過程通常花費約二十分鐘左右;建模完成後,可直接下載模板蛋白和目的蛋白的三維空間結構用於後續的分析。

新冠病毒蛋白同源模建結果方法公佈:華為雲聯合國內高校最新研究


  • Step 4:分子動力學模擬

同源建模得到的蛋白質結構可以用於分子動力學(Molecular Dynamics)模擬。分子動力學模擬可以通過 GROMACS 等工具完成,這一步驟通常比較耗時。華為雲醫療智能體平臺提供了加速版的 GROMACS,加速後的 GROMACS 消耗的時間為傳統版本的 1/6。

新冠病毒蛋白同源模建結果方法公佈:華為雲聯合國內高校最新研究

建模結果統計

針對 2019-nCOV 的 20 個蛋白質一級序列,有 15 個蛋白和 SARS-COV 的蛋白質有比較高的同源性,identity>70%;通過蛋白質三維工具可視化之後,也可以看到這些蛋白質的三維空間構象和模板蛋白比較相似;

其中有一個蛋白質,NSP4,在 SARS-COV 中沒有很好的同源蛋白,是以小鼠肝炎病毒的 A59 進行建模,其 identity>60%;

另外有四個蛋白質的同源建模效果不是很好,其中 NSP2,NSP6 和 M 均沒有很好的目的模板,匹配度最好的蛋白質序列的 identity < 30%;所以建模的結果不太理想;同時 NSP11 蛋白質的長度只有 11 個殘基,長度太短,不滿足建模要求;

目的蛋白的長度,模板蛋白的選擇和同源建模的參數整理在以下的表格中供參考:

數據和可視化

模板蛋白和同源建模得到的 2019-nCoV 蛋白質三維結構都以 PDB 格式進行保存,華為雲醫療智能體平臺的 Notebook 工具已經內置了可視化所需要的插件和工具,用戶可以交互式拖動和展示感興趣的蛋白質三維結構。

新冠病毒蛋白同源模建結果方法公佈:華為雲聯合國內高校最新研究

以上涉及到的數據、算法和工具,目前都已經集成在華為雲醫療智能體平臺。同時,聯合科研團隊也正在對篩選出來的五種抗病毒藥物進行細胞學驗證,並推動後續一系列藥物臨床試驗。

參考鏈接:

https://bbs.huaweicloud.com/blogs/145316

https://bbs.huaweicloud.com/blogs/144950

齊心協力,健康打卡

系統面向所有組織免費開放至疫情結束。有效幫助管理人員及時發現疫情,做好防控工作,使用者均可採取線上移動打卡方式,隨時隨地上傳個人健康信息,無需見面填報,支持分級分類彙總統計和預警;各級管理人員可快捷掌握所轄人員的健康動態、活動軌跡、接觸情況。精準到人,做到全覆蓋、無遺漏的網格化、地毯式疫情排查。 該工具完全免費

新冠病毒蛋白同源模建結果方法公佈:華為雲聯合國內高校最新研究


分享到:


相關文章: