病毒的来源?SARS-CoV-2基因组的系统进化网络分析

世界卫生组织(WHO)最初将新病毒临时命名为2019-nCoV。2月11日,世卫组织将新型冠状病毒感染引起的疾病正式命名为COVID-19,即2019年冠状病毒疾病的缩写。

当天,国际病毒分类委员会冠状病毒研究小组(CSG)在bioRxiv上发布手稿,确定新病毒属于现有物种,即与严重急性呼吸综合征(SARS)相关的冠状病毒。其中建议,在对相关冠状病毒进行系统分析的基础上,将2019-nCoV命名为“严重急性呼吸综合征冠状病毒2”,即“SARS-CoV-2”。

意义

这是从世界各地采样的SARS-CoV-2基因组的系统发育网络。这些基因组是密切相关的,并且在其人类宿主中处于进化选择之下,有时具有平行的进化事件,也就是说,相同的病毒突变出现在两个不同的人类宿主中。这使得基于字符的系统进化网络成为在人类宿主中重建其进化路径和祖先基因组的选择方法。网络方法已在大约10,000种不同生物的系统发育研究中使用,并且主要用于重建人类的史前种群运动和生态研究,但在病毒学领域使用较少。


抽象

在对160个完整的人类严重急性呼吸系统综合症冠状病毒2(SARS-Cov-2)基因组进行的系统进化网络分析中,我们发现了三个主要的变异体,它们的氨基酸变化不同,我们将其命名为A,B和C,其中A为根据蝙蝠的外祖先型冠状病毒。A和C类型在东亚以外地区(即欧洲人和美国人中)的比例很高。相比之下,B型是东亚最常见的类型,其祖先基因组似乎没有先突变成衍生的B型就不会扩散到东亚以外,这表明在亚洲以外对该类型的创始人具有影响力或免疫或环境抵抗力。

该网络忠实地跟踪了已记录的2019年冠状病毒病(COVID-19)病例的感染途径。

SARS-CoV-2进化亚型祖先型

随着全球人类线粒体DNA树的发表(1),寻找人类起源似乎迈出了一步。但是,很快发现,树构建方法并不能促进对数据的明确解释。这促使发展,在90年代初,的演化网络的方法,其能够实现最佳的树木(的大量的可视化的23)。此网络方法的基础上,线粒体和Y染色体的数据,使我们能够重建其拓殖行星(史前人口流动45)。从2003年开始的系统进化网络方法在语言史前史的重建中得到了应用(6)。现在应该将系统进化网络方法应用于病毒学数据,以探索该方法如何有助于理解冠状病毒的进化。


2020年3月上旬,GISAID数据库(https://www.gisaid.org/)包含253种严重急性呼吸系统综合症冠状病毒2(SARS-CoV-2)的完整和部分基因组,这些基因组由来自全球各地的临床医生和研究人员提供自2019年12月以来一直是全球。为了了解这种病毒在人体内的进化,并协助追踪感染途径和设计预防策略,我们在这里提出了一个由160个基本完整的SARS-Cov-2基因组组成的系统进化网络(

图1)。

160个SARS-CoV-2基因组的系统发育网络。节点A是用云南的蝙蝠(R. affinis)冠状病毒分离株BatCoVRaTG13 获得的根簇。圆圈区域与分类单元的数量成正比,链接上的每个缺口代表一个突变的核苷酸位置。所考虑的序列范围是56至29,797,其核苷酸位置(np)根据武汉1参考序列(8)编号。使用了中位数连接网络算法(2)和Steiner算法(9),均在软件包Network5011CS(https://www.fluxus-engineering.com/中实现),并将参数epsilon设置为零,从而生成包含229个突变长度为288的最简约树的网络。网状结构主要是由np11083处的反复突变引起的。161个分类单元(160个人类病毒和一种蝙蝠病毒)产生101个不同的基因组序列。系统发育图可通过A0发布者格式(SI附录,图S5)和免费的网络下载文件进行详细检查。


[ 7 ]最近报道了一种紧密相关的蝙蝠冠状病毒,与人类病毒的序列相似性为96.2%。我们将此蝙蝠病毒用作外群,导致网络的根放置在我们标记为“ A”的世系簇中。总体而言,该网络如预期的那样正在爆发,显示了祖传病毒基因组与新近变异的子代基因组同时存在。


A的两个子群以同义突变T29095C区分。在T-等位基因亚群中,有四个中国人(来自中国南方沿海省份广东省)带有祖传基因组,而三名日本人和两名美国病人则有许多突变。据报道,这些美国患者在推测的武汉疫情中曾有居住史。C-等位基因亚簇具有相对较长的突变分支,包括来自武汉的五个人,其中两个代表祖先,以及来自中国和邻近国家的其他八位东亚人。值得注意的是,该子集群中将近一半(15/33)类型位于东亚以外地区,主要位于美国和澳大利亚。

就节点类型和从这些节点辐射的突变分支中包含的个体数量而言,两个派生的网络节点引人注目。我们已将这些系统发育簇标记为B和C。


对于B型,在武汉(n = 22),中国东部其他地区(n = 31)和偶发地在邻近的亚洲国家(n= 21)。在东亚以外地区,在美国和加拿大的病毒基因组中发现了10种B型,墨西哥一种,法国四种,德国两种,德国和意大利和澳大利亚各一种。节点B通过两个突变从A派生:同义突变T8782C和非同义突变C28144T,将亮氨酸变为丝氨酸。关于突变分支长度,簇B引人注目:虽然祖先的B型被东亚人独占(26/26个基因组),但亚洲以外的每个(19/19)B型基因组都进化出了突变。这种现象似乎不是由于病毒基因组在中国传播之前长达一个月的时间滞后和伴随的突变率作用所致(数据集S1,补充表2))。复杂的创建者情况是一种可能性,值得考虑的另一种解释是,祖传的武汉B型病毒在免疫或环境上适合东亚大部分人口,并且可能需要变异以克服东亚以外地区的抵抗。


C型与其母体B型的区别在于非同义突变G26144T,该突变将甘氨酸转变为缬氨酸。在数据集中,这是主要的欧洲类型(n = 11),在法国,意大利,瑞典和英国以及加利福尼亚和巴西都有代表。它在中国大陆的样本中不存在,但在新加坡(n = 5)中很明显,在香港,台湾和韩国也有。


系统发育网络的一种实际应用是在未知的感染路径并造成公共健康风险的情况下重建感染路径。以下有充分记录感染史的病例可以作为例证(SI附录)。2020年2月25日,据报道,第一个巴西人是在访问意大利后感染的,该网络算法反映出这是意大利人与他的C群中巴西病毒基因组之间的突变联系(SI附录,图S1)。在另一起案件中,一名来自安大略省的男子从中国中部的武汉前往中国南部的广东,然后返回加拿大,病倒并于2020年1月27日被确诊为2019年冠状病毒病(COVID-19)。系统发育网络(SI附录,图S2),他的病毒基因组来自一个重建的祖先节点,在佛山和深圳(均在广东省)具有衍生的病毒变体,这与他的旅行历史相符。现在,他的病毒基因组与其他感染北美人(一个加拿大人和两个加利福尼亚人)的基因组共存,这些人显然具有共同的病毒谱系。网络中单个墨西哥病毒基因组的病例是有记录的感染,该感染于2020年2月28日在墨西哥的意大利旅行者中被诊断出。网络不仅可以确认墨西哥病毒的意大利起源( SI附录,图S3),但这也意味着该意大利病毒源自2020年1月27日在慕尼黑Webasto公司工作的一名员工在德国的首次有记载的感染,而该员工又从上海的一名中国同事那里感染了该病毒,她的父母从武汉来访。系统发育网络中的10个突变记录了这种从武汉到墨西哥的病毒之旅,历时一个月。


该病毒网络是流行病早期的快照,之后系统发育被随后的迁移和突变所掩盖。可能会问到,是否可以通过使用最早的可用采样基因组作为根,在此早期阶段实现病毒进化的生根。但是,正如SI附录所示,图S4显示,根据蝙蝠冠状病毒外群生根,于2019年12月24日采样的第一个病毒基因组已经远离根类型。


所描述的核心突变已被各种实验室和测序平台所证实,并被认为是可靠的。网络中的系统地理模式可能会受到独特的迁徙历史,创始人事件和样本数量的影响。然而,谨慎考虑突变变异体可能调节疾病的临床表现和传播的可能性。在评估SARS-CoV-2感染的临床和流行病学结局,设计治疗方法以及最终设计疫苗时,可以使用此处提供的系统发育分类来排除或确认此类影响。


材料和方法

全球禽流感数据共享倡议(GISAID)成立于2006年,自2010年以来一直由德国联邦粮食,农业和消费者保护部主办。自2019年12月起,GISAID也已成为冠状病毒库。截至2020年3月4日,即系统发育分析的临界点,GISAID数据库(https://www.gisaid.org/)已汇编了254个冠状病毒基因组,从244个人中分离出,9头中国穿山甲和1 头蝙蝠Rhinolophus affinis(来自中国云南省的BatCoVRaTG13)。序列已由数据集S1补充表1中列出的82个实验室保藏。。尽管SARS-CoV-2是一种RNA病毒,但按照惯例,沉积的序列为DNA格式。我们的初步核对证实了Zhou等人的早期报道。(

7)与人类SARS-CoV-2病毒相比,穿山甲冠状病毒的保守性很差,而蝙蝠冠状病毒的序列相似性在我们的分析中为96.2%,与Zhou等人发表的96.2%一致。我们丢弃了部分序列,仅使用了我们与Wu等人的完整参考基因组比对的最完整的基因组。(8)包含29,903个核苷酸。最后,为确保可比性,我们将所有序列的侧翼截短至共有范围56至29,797,并根据武汉1参考序列对核苷酸位置进行编号(8)。数据集S1补充表2(冠状病毒分离物标签)中列出了所得的160个序列和蝙蝠冠状病毒序列的实验室代码。


160条人类冠状病毒序列正好包含100种不同类型。我们将蝙蝠冠状病毒作为一个分组添加到数据中,以确定系统发育内的根。系统网络分析是使用Network 5011CS软件包进行的,该软件包除其他算法外,还包括中位数加入网络算法(3)和Steiner树算法,以识别复杂网络中最简约的树(9)。我们将相邻核苷酸的空位编码为单个缺失事件(这些缺失很少见,最长可达24个核苷酸,并且大部分在氨基酸阅读框中),并将epsilon参数设置为零运行数据,并通过设置进行探索性运行将epsilon参数设置为10。这两个设置都产生了一个低复杂度的网络。然后在两个网络上都运行了Steiner树算法,并提供了相同的结果,即网络中最简约的树的长度为229个突变。两个网络的结构都非常相似,其中epsilon 10设置在A和B群集之间提供了另一个矩形。使用“网络发布者”选项对网络输出进行注释,以指示地理区域,样品收集时间和聚类术语。


参考文献

(1)↵ 坎恩( RL Cann) M. Stoneking, AC 威尔逊,线粒体DNA与人类进化。自然 325,31 - 36(1987)。CrossRefPubMedGoogle学术搜索(2)↵ HJ Bandelt, 福斯特( P. BC Sykes, MB 理查兹,使用中位网络的线粒体肖像。遗传学 141,743 - 753(1995年)。摘要/ 免费全文Google学术搜索(3)↵ HJ Bandelt, 福斯特( P. A. Röhl,中位连接网络,推断种内系统发育。大声笑 生物学 进化 16,37 - 48(1999)。CrossRefPubMedGoogle学术搜索(4)↵ 福斯特( P. C. 伦弗鲁,进化。母语和Y染色体。科学 333,第1390 - 1391年(2011)。摘要/ 免费全文Google学术搜索(5)↵ C. 伦弗鲁, P. 铁路,《剑桥世界史前史》(剑桥大学出版社,2014年)。谷歌学术(6)↵ 福斯特( P. C. 伦弗鲁,系统发育方法和语言的史前史(麦当劳研究所出版社,2006年)。谷歌学术↵(7)
P. 周 等.. 与可能是蝙蝠起源的新冠状病毒相关的肺炎暴发。自然 579,270 - 273(2020)。CrossRefPubMedGoogle学术搜索(8)↵ F. 吴 等人,一种与人类呼吸系统疾病有关的新型冠状病毒。自然 579,265 - 269(2020)。CrossRefPubMedGoogle学术搜索↵(9) T. Polzin, SV Daneshmand,关于超图中的Steiner树和最小生成树。歌剧 Res。来吧 31,12 - 20(2003)。CrossRefGoogle学术搜索


PNAS是《美国科学院院报》(Proceedings of the National Academy of Sciences of the United States of America, 缩写。它是美国国家科学院的院刊,亦是公认的世界四大名刊(Cell,Nature,Science,PNAS)之一,百年经典期刊。自1914年创刊至今,PNAS提供具有高水平的前沿研究报告、学术评论、学科回顾及前瞻、学术论文以及美国国家科学学会学术动态的报道和出版。PNAS收录的文献涵盖医学、化学、生物、物理、大气科学、生态学和社会科学,最新发布的影响因子为9.661(2016),特征因子(Eigenfactor) 为1.23581(2016) 。


转发仅为对科技权威期刊的兴趣,非商业性行为。

(来源:美国科学院院报)