血液微生物 AI 预测癌症(原文死磕版)


Nature | 血液微生物 AI 预测癌症(原文死磕版)


文献速递


癌症微生物组的系统表征为开发可利用非人的微生物来源的分子诊断主要的人类疾病的技术提供了机会。重新分析了癌症基因组图谱(TCGA)的全基因组和全转录组测序研究中从未经治疗的 33 种癌症(共 18,116 个样本)的微生物数据,在大多数主要癌症内和组织和血液之间中发现了独特的微生物特征。尽管在非常严格的去污染条件下丢弃高达 92.3% 总序列数据后,这些 TCGA 血液特征对 Ia-IIc 期癌症和在两个商业级游离肿瘤 DNA 平台检测无基因组改变的癌症依旧具有可预测性。此外,仅用血浆来源的游离微生物核酸可以区分健康,无癌症的个体(n = 69)和多种癌症患者(前列腺癌,肺癌和黑色素瘤;n = 100)

Keywords: Cancer, Diagnostic markers, machine learning, metagenomics, Microbiome

Title: Microbiome analyses of blood and tissues suggest cancer diagnostic approach

DOI: 10.1038/s41586-020-2095-1

Journal: Nature [IF 43.07]

First Authors: Gregory D Poore,Evguenia Kopylova

Correspondence: Rob Knight

Affiliation: Department of Bioengineering, University of California San Diego, La Jolla, CA, USA

Published: 2020-03-11


研究背景


癌症被认为是人类基因组的疾病,但目前已有研究表明,微生物组对某些类型的癌症有重要贡献,尤其是粪便微生物与胃肠癌。而微生物对不同类型癌症的贡献程度和诊断意义尚未清晰,是因为在样品收集,处理和测序过程中引进的污染限制这些研究。采用新的工具可以最大程度减少污染物微生物特征以合理开发基于微生物的诊断。

为了研究癌症与微生物组关系,重新分析了癌症基因组图谱(TCGA)的全基因组(WGS;n = 4,831)和全转录组(RNA-seq, n = 13,285)测序研究中从未经治疗的 33 种癌症(10,481名患者的18,116个样本)的微生物数据

先前在胃腺癌中的 Epstein–Barr virus (EBV) 和宫颈癌中的 human papillomavirus (HPV) 中有专门研究过微生物数据,并且已经在小部分样本中进行了系统研究,如来自 19 种癌症的 4,433个 TCGA 样本的病毒和横跨 9 种癌症的 1,880 个 TCGA 样本的细菌。但大量的 TCGA 样品的微生物数据尚未开发。

作者用两套微生物检测pipeline全面系统地有组织地创建全面的癌症微生物组数据集,以减少系统误差和污染。基于微生物特征用机器学习(ML)来识别区分癌症类型,并比较其性能。

因为 TCGA 样品处理过程没有控制微生物污染和排除健康对照。所以作者额外做了血液的分析,TCGA 样品很有可能引入外源的微生物污染。作者专注于血浆来源的微生物 DNA 的特征与临床许可游离肿瘤 DNA(ctDNA)分析比较的基准测试。

对前列腺癌,肺癌,或皮肤癌患者和健康的,无癌症,无 HIV 的对照组的血清样品深度宏基因测序,结果显示游离微生物可以区分健康对癌症或者癌症之间。


研究结果


01.TCGA癌症微生物组及其标准化

在 TCGA 中获得 6.4×10 12 个测序读数中,有 7.2% 为非人类序列,其中 35.2%(占总的2.5%)为细菌、古细菌或病毒,其中 12.6%(占总的0.9%)用 Kraken 定位到属水平(图1a)。元数据质控剩下 17,625 个样品,根据癌症类型和样本类型进行了转换归一化处理(Voom-SNM)(图1b)。在原发肿瘤(primary tumour)、实体瘤癌旁(solid tissue normal)、转移(metastatic )和复发性肿瘤(recurrent tumour samples)中,WGS 中的微生物数据显著高于RNA-seq中的(图2fg)。

由于快速 k-mer-matching 方法容易产生假阳性,因此对于四种已知与微生物有关系和/或配对蛋白质组数的TCGA类型的癌症(宫颈鳞状细胞癌(CESC),胃腺癌(STAD),肺腺癌(LUAD),和卵巢浆液性囊腺癌(OV))进行 bwa 比对验证,Kraken 假阳性率较低(1.09%),说明 Kraken 数据可用下游分析。

已知 TCGA 表达和人基因组数据具有批次效应。用 Voom 的对数转换(log-cpm)和归一化(SNM)处理(图3-4)。主方差分量分析显示处理后能减小效果批次同时增加生物信号(包括“疾病类型”)(图5)。

Nature | 血液微生物 AI 预测癌症(原文死磕版)

图1 a, Lollipop plot showing the percentage of total sequencing reads identified by the microbial-detection pipeline, and those resolved at the genus level in TCGA data set by Kraken.

b, CONSORT-style diagram showing quality control processing and the number of remaining samples. FFPE, fixed-formalin paraffin-embedded.

Nature | 血液微生物 AI 预测癌症(原文死磕版)

图2 f, g, Microbial reads counts as normalized by the quantity of samples within a given sample type across all types of cancer in TCGA after metadata quality control (Fig. 1b), including the three major sample types analysed in the paper (f) and the remaining sample types (g).

Nature | 血液微生物 AI 预测癌症(原文死磕版)

图3. Principal components analysis (PCA) of Voomnormalized data, with cancer microbiome samples coloured by sequencing centre. d, PCA of Voom-SNM data.

Nature | 血液微生物 AI 预测癌症(原文死磕版)

图4. d, PCA of Voomnormalized data, where colours represent experimental strategy of the sample and each dot denotes a cancer microbiome sample. e, PCA of the data following consecutive Voom-SNM supervised normalization, as labelled by experimental strategy.

Nature | 血液微生物 AI 预测癌症(原文死磕版)

图5. e, Principal variance components analysis of raw taxonomical count data, Voom-normalized data, and Voom-SNM data.


02.肿瘤类型内与外的预测

使用归一化的数据,训练了 stochastic gradient-boosting 机器学习模型,以区分不同癌症类型和癌症不同阶段。模型在区分(i)一种癌症与所有其他癌症(n = 32种癌症)和(ii)癌症与正常(n = 15种癌症)性能表现很好(图6f-g)。癌症类型之间模型的敏感性和特异性的差异部分可能是由于规模的差异所致,因为人群规模 AUROC 和 AUPR 具有显著线性关系(图7)。尽管这些历史组织样本的空间检验不在本研究的范围之内,但癌症微生物的异质性也可能导致模型性能差异。模型在区分 COAD、STAD、KIRC 的 I 期和 IV 表现良好但在其余 5 种癌症不区分不同阶段。这些结果表明,对于所有类型的癌症,微生物群落结构动力学可能与宿主组织所定义的癌症阶段不相关(图6h)。

为了评估方法的通用性,将原始 TCGA 微生物数据随机分成两批,分别重复所有测序,其中一半独立训练另一半测试。在不同组合中都表现出高度相似的性能。无论是单一测序方法(WGS或RNA-seq)、不同测序中心、或者仅使用经过基因组比对过滤的 Kraken 数据,诊断微生物特征都在(图8)。

作者用 SHOGUN 流程进一步验证,SHOGUN 是一个基于比对算法,简化的,基于系统发育和只有细菌的数据库的微生物分类流程。验证使用的数据是基于 Kraken 的分析的,包括 13,517 TCGA 样本(癌症类型(n = 32),样品类型(n = 7),测序平台(n = 6)和测序中心(n = 8))。尽管使用了较小的,不相同的基础数据库,SHOGUN 数据处理依旧有批次效应。数据归一化处理和 ML 模型训练预测后,发现数据集之间的区分性能没有重大差异(图9)。总而言之,结果表明微生物群落对于每种癌症类型都是唯一的,而且仅基于微生物区分癌症的归一化和模型训练方法可以得到广泛的应用。

Nature | 血液微生物 AI 预测癌症(原文死磕版)

图6. f–h, Heatmaps of classifier performance metrics (AUROC (ROC) and AUPR (PR)) from red (high) to blue (low) for distinguishing between TCGA primary tumours (f), between tumour and normal samples (g), and between stage I and stage IV cancers (h). NA, fewer than 20 samples available in any ML class for model training.

Nature | 血液微生物 AI 预测癌症(原文死磕版)

图7. g, h, Linear regressions of model performance, specifically AUROC (g) and AUPR (h), for discriminating between types of cancer in a one-cancer-type-versus-all-others manner, as a function of minority class size.

Nature | 血液微生物 AI 预测癌症(原文死磕版)

Nature | 血液微生物 AI 预测癌症(原文死磕版)

图8. Internal validation of ML model pipeline

Nature | 血液微生物 AI 预测癌症(原文死磕版)

Nature | 血液微生物 AI 预测癌症(原文死磕版)

图9. Orthogonal validation of Kraken-derived TCGA cancer microbiome profiles and their ML performances


03.微生物谱的生物学相关性

鉴于微生物特征具有区分效果,作者用生态学预期和/或临床检验寻求其生物学相关性的证据。为了评估与癌症相关的微生物是否是生态学预期的(即“原生”器官特异性共生群落的一部分),将 HMP2 项目中覆盖 8 个身体部位的 217 个样本(数据处理同上述)作为训练集用贝叶斯微生物源追踪算法以评估 70 个 COAD 实体瘤癌旁样本和 122 个 SKCM 原发性肿瘤各身体部位的占比。粪便是主要的人体部位贡献者,但仅对 COAD 有贡献,而 SKCM 并不是。这表明该部位的微生物生态的一部分是特有的(图10)。

梭杆菌属(Fusobacterium spp.)已报道与胃肠道肿瘤的发生和发展有关,梭杆菌属在原发性肿瘤高丰度,相对于实体瘤癌旁组织,尤其和血液正常样品。泛癌分析也显示在原发性肿瘤组织和实体瘤癌旁组织中,梭杆菌丰度在胃肠(GI)癌症(n = 8)比对非胃肠道肿瘤(n = 24)的丰度高。也发现在原发性肿瘤组织和实体瘤癌旁组织的幽门螺杆菌无差异(图11)。

随后,确证带有临床注释的 TCGA 病毒感染,使用两种不同的生物信息流程检测 TCGA 的病毒:(i)从头基因组组装方法和(ii)基于 read 的方法(PathSeq 算法)。

在 CESC 和 HNSC 的原发性肿瘤中临床诊断 HPV 感染“阳性”、“阴性”两组之间,Alphapapillomavirus 属丰度显著差异,CESC 的血液正常样本作为阴性对照,在统计学上无差异。Alphapapillomavirus 是有选择性地过度表达,相比较其他肿瘤和样本类型(图12)。

在原发性肿瘤和实体瘤癌旁组织中,HBV genus (Orthohepadnavirus) 在有乙型肝炎病史的肝细胞癌(LIHC)患者选择性过表达,相比较丙型肝炎病史的 LIHC 患者。LIHC 的血液正常样本作为阴性对照,在统计学上无差异(图13)。

同样,通过比较 STAD 分子亚型患者的原发性肿瘤、实体瘤癌旁组织、血液正常样本的 EBV (Lymphocryptovirus) 丰度,EBV 也只选择性地 EBV 感染的 STAD 的原发性肿瘤过表达,实体瘤癌旁组织、血液正常样本的均无显著差异(图13)。

这些数据与癌症之间预测模型得到结论一致,即具有已知微生物“驱动力”或“共生菌”的癌症提供了该模型与生态学相关的初步证据。例如,乳头瘤病毒属是鉴定 CESC 肿瘤的最重要特征;Faecalibacterium 与 COAD 肿瘤;正肝炎病毒属是 LIHC 肿瘤第二重要的特征(仅次于 hepatotoxic Microcystis genus)。为了方便更多科学家日后深入研究其中关系,作者将数据部署在交互网站(http://cancermicrobiome.ucsd.edu/CancerMicrobiome_DataBrowser),以便大家扩展研究更多样本和微生物。

Nature | 血液微生物 AI 预测癌症(原文死磕版)

图10. a, Average body site attribution for solid-tissue normal samples from patients with COAD (n = 70) using Source Tracker232 trained on the HMP2 data set.

Nature | 血液微生物 AI 预测癌症(原文死磕版)

Nature | 血液微生物 AI 预测癌症(原文死磕版)

图11. b, Differential abundances of the Fusobacterium genus for common gastrointestinal (GI) cancers associated with Fusobacterium spp.

Nature | 血液微生物 AI 预测癌症(原文死磕版)

Nature | 血液微生物 AI 预测癌症(原文死磕版)

图12. d, e, Normalized HPV abundances for HPVinfected patients with CESC (d) or HNSC (e), as clinically denoted in TCGA. ISH, in situ hybridization; IHC, immunohistochemistry. (c), Pan-cancer normalized abundances of Alphapapillomavirus with a one-way ANOVA (Kruskal–Wallis) test for microbial abundances across types of cancer for each sample type.

Nature | 血液微生物 AI 预测癌症(原文死磕版)

图13. f, Normalized Orthohepadnavirus abundance in patients with LIHC with clinically adjudicated risk factors: HepB, prior hepatitis B infection; EtOH, heavy alcohol consumption; HepC, prior hepatitis C infection. g, Normalized EBV abundance in STAD integrative molecular subtypes: CIN, chromosomal instability; GS, genome stable; MSI, microsatellite unstable; EBV, EBV-infected samples.


04.衡量和减少污染

衡量和减少污染对更好地描述推定与癌症相关的微生物至关重要。先前报告 TCGA 鉴定污染物有 6 种:(表皮葡萄球菌,痤疮丙酸杆菌,青枯菌,分枝杆菌,假单胞菌和不动杆菌)基于跨类型的癌症中常见的低丰度 read。但最近研究表明,外部污染物与样品的分析物浓度负相关的频率更加一致,且能被稳健统计框架被检测到。

作者分别用 TCGA 样品处理过程中 DNA 和 RNA 浓度和分类 read 部分鉴定假定的污染物,还删除“空白”试剂中发现的属(n = 94)。还有五种伪污染物掺入原始数据集中,跟踪去污轨迹,监督归一化和 ML。我们已知测序技术存有误差,作者收集并删除任何一个测序中心(n = 8)都被视为污染物。经过上述处理,得到了假定的污染物 list,人工文献复核,重新允许致病菌或者混合证据的属(即是致病菌又是常见的污染物,如分枝杆菌)就产生了两个污染物 list,一个去除了可能的污染物,另一个去除了所有假定的污染物。作者还按照严格的要求设置了第三个“最严格的过滤”数据集,使用第三个数据集丢弃了约 92% 的总读取次数。但去污染似乎未对所研究的样品或癌症类型产生差异影响(图14)。

计算模拟去污不能替代在癌症样品上按金标准处理,包括无菌处理,无菌认证的试剂,从始至终处理的阴性试剂空白以及多样品合并为“阳性”控制。此时计算机的模拟只是反映了当前现有的技术,并非旨在检测污染物或交叉污染。后者污染不可能在许多测序中心和多年收集的癌症类型之间或内部信号一致的,但也限制生物学结论,如果不加以控制,尤其在小型研究中。

严格去污的另一个风险是可能会丢弃 反映共生的,组织特异性的微生物群落和预测癌症的微生物特征的真实信号。作者重新计算 COAD 实体瘤癌旁组织(n = 70)的身体来源占比,发现连续严格的去污处理可以识别先前无法识别的共存组织。作者重新计算了图 6f-h 中所示的所有 ML 模型,并比较了每种去污方法前后的性能(图15)。假定污染物对大多数模型没有影响,尽管 DLBC 和 MESO 的模型变得不太可靠。正如预期,严格去污在不同肿瘤类型(如 COAD 与其他所有癌症)效果不佳,但是组织内比较(例如,肿瘤与正常)通常良好或者更好。这结果表明,某些比较可能需要严格的过滤,但是采用通用的去污可能会删除生物学信号(图16)。

Nature | 血液微生物 AI 预测癌症(原文死磕版)

图14. The decontamination approach along with its results, benefits, and limitations on cancer microbiome data. a, Various approaches used to evaluate, mitigate, remove and/or simulate sources of contamination. b, The proportion of remaining taxa or microbial reads in TCGA after varying levels of decontamination. Decontamination by sequencing centre removed all taxa identified as a contaminant at any one sequencing centre (n = 8 batches); decontamination by plate–centre combinations removed all taxa identified as a contaminant on any single sequencing plate with more than ten TCGA samples on it (n = 351 batches).

Nature | 血液微生物 AI 预测癌症(原文死磕版)

图15. c–f, Body-site attribution prediction on the likely contaminants removed data set (c), the plate–centre decontaminated data set (d), the all putative contaminants removed data set (e), and the most stringent filtering data set (f). g–l, All of the models and concomitant performance values (AUROC and AUPR) were re-generated using the four decontaminated data sets described above (each labelled with a different colour as shown above). The AUROC and AUPR values obtained from models trained and tested on the decontaminated data sets are plotted against the AUROC or AUPR values from the full data set (Fig. 1f–h).

Nature | 血液微生物 AI 预测癌症(原文死磕版)

图16. Measuring spiked pseudo-contaminant contribution in downstream ML models and theoretical sensitivities of commercially available, host-based, ctDNA assays in patients from TCGA. a, b, Feature importance scores were calculated for all taxa used in models trained to discriminate one cancer type versus all others in all four decontaminated data sets (Extended Data Fig. 6b) using primary tumour microbial DNA or RNA (a), or using blood-derived mbDNA (b).


05.用血液微生物DNA预测

先前文献已有证据表明基于血液微生物 DNA(mbDNA)在癌症中可成为临床信息,但尚不清晰适用范围。所以作者用 TCGA 血样的 WGS 数据,将 ML 策略应用于完整数据集和四个去污染数据集,发现论是基于微生物分类算法或者经基因组比对过滤的 Kraken 数据,mbDNA 可以区分多种癌症(图17a)。回顾性分析表明,很少有模型预测的 marker 含有污染物,因为这样的模型(CESC、KIRP、LIHC)不太可靠。

受这些发现的启发,作者将 ML 模型与现有的液体活检(ctDNA检测)比较,关注液体活检失败的情况:没能检出基因组改变 Ia–IIc 期癌症和肿瘤。剔除来自这些隐匿的 III 期或 IV 期癌症的患者血液正常样品后,重建新的 ML 模型。发现 mbDNA 能很好区分癌症类型。进一步剔除 Guardant360 和 FoundationOne 液体活检测到一种或多种靶向修饰的 TCGA 患者,ML 模型对剩余的大多数类型的癌症依旧表现良好(图17)。

这些分析受限于液体活检用的是血清而不是全血,mbDNA 来源分布也不得而知。由于无法获得 RNA 数据,就无法得知这些 mbDNA 是来自活的还是死的微生物。由于 TCGA 的 SOP 中允许用全血或血沉棕黄层提取物,无法确定 mbDNA 是否游离还是存在宿主白细胞的。如果不检测主要样本和匹配肠上皮细胞不可能得知 mbDNA 的起源,如某些癌症意想不到的方式“泄漏” mbDNA(如,白血病肠细菌的易位)。

由于去污对模型性能的影响因癌症的类型而异,理想去污可能是连续的过程,但本文中的过滤受到以下限制:(i)无法获得主要样本,(ii)属水平分类学解析度,(iii)不知道同时处理了非 TCGA 样本。

Nature | 血液微生物 AI 预测癌症(原文死磕版)


图17. Classifier performance for cancer discrimination using mbDNA in blood and as a complementary diagnostic approach for cancer ‘liquid’ biopsies. a, Model performance heatmap analogous to Fig. 1f–h to predict one cancer type versus all others using blood mbDNA with TCGA study IDs on the right; at least 20 samples were required in each ML minority class to be eligible. b, ML model performances predicting one cancer type versus all others using blood mbDNA for stage Ia–IIc cancers. c, d, ML model performances using blood mbDNA from patients without detectable primary tumour genomic alterations, per Guardant360 (c) and FoundationOne Liquid (d) ctDNA assays.


06.验证血液的微生物特征

最后,作者用真实样品的血浆来源,游离 mbDNA 特征的区分健康于多种类型癌症以验证上述的结论,将对标液体活检。虽然血浆是全血的子集但未曾在 TCGA 中研究,限制了可比性,但是鉴于血浆的稳定性(如可冻结性),生物存储库可利用性和生物学解释方面具有主要优势,所以选择了血浆。

验证对象包括 69 名无癌症和无 HIV 的个体,100 名三种类型癌症的患者:前列腺癌(n = 59;PC);肺癌(n = 25;LC)和黑色素瘤(n = 16;SKCM)(图18a)。

由于没有现有文献来评估效应量,匹配来自 Broad Institute 和 HMS 测序中心 TCGA癌症血样进行了独立模拟,以估算最小样本量(图19)。

游离 DNA 提取引入多个对照(梯度稀释的Aliivibrio fischeri (genus: Aliivibrio) ,DNA 提取对照,DNA 文库制备对照,空白对照),且宏基因组深度测序是限于有限用户处理和单一文库制备。单一 run。剔除人源 read,Kraken 获得分类信息,基于 DNA 浓度和阴性对照严格去除污染物。Voom-SNM 转换归一化,年龄和性别归一化后,ML 能很好区别健康对照和癌症患者(图18c-h)。

由于样本量较小,作者还对归一化数据进行了留一法(LOO)迭代 ML,发现健康样本与癌症类型之间以及它们之间的成对和多类比较都具有很高的区分性(除了样品较少的 SKCM)(图.4C-K)。即便从 PC 和 LC中 匹配以 SKCM 相应的队列规模,再次迭代区分,SKCM 的ML 模型还是表现不佳,并且前面的数据集结果中 SKCM 表现也是倒数第二,说明了 SKCM 性能普遍存在缺陷,有待改进(图18i-k)。

为了确保 Kraken 数据的有效性,再次执行 SHOGUN 流程,也能得到高度一致的性能。

Nature | 血液微生物 AI 预测癌症(原文死磕版)

Nature | 血液微生物 AI 预测癌症(原文死磕版)

图18. Performance of ML models to discriminate between types of cancer and healthy controls using plasma-derived, cell-free mbDNA. a, Demographics of samples analysed in the validation study. All patients had high-grade (stage III–IV) cancers of multiple subtypes and were aggregated into PC, LC, and SKCM groups. b, Bootstrapped performance estimates for distinguishing grouped cancer samples (n = 100) from non-cancer healthy controls (n = 69). Rasterized density plot of ROC (top) and PR (bottom) curve data from 500 iterations with different training–testing splits (70%–30%). c–h, LOO iterative ML performances between two classes: PC versus control (Ctrl; c), LC versus control (d), SKCM versus control (e), PC versus LC (f), LC versus SKCM (g), and PC versus SKCM (h). i–k, Multi-class (n = 3 or 4), LOO iterative ML performances to distinguish among types of cancer (i) and between mixed patients with cancer and healthy control individuals ( j, k). Overall LOO ML performance was calculated as the mean of performances when comparing one versus all others (shown below as confusion matrices).

Nature | 血液微生物 AI 预测癌症(原文死磕版)

图19. a, Discriminatory simulations in TCGA used to empirically power the real-world validation study (Fig. 4; see Methods). Centre values for each stratified sample size are the means of the performances across ten iterations; error bars denote s.e.m.


结果与讨论


各类癌症与特定微生物群之间存在广泛的关联,这些微生物特征似乎能区分大多数类型的癌症,包括商业的液体活检无法检测出基因组改变的癌症早期患者。

即便经过大量内部验证检查和去污染,甚至丢弃超过 90% 的总数据,结论依旧有效。

仅用血浆中游离的 mbDNA 同时设置大量内部和外部的污染对照,对健康对照组和患有多种类型癌症患者同样具有较高的区分度,提示使用广泛可用的样本进行临床相关和回顾性检验是可行且可推广的。

追踪核酸是否来自肿瘤微环境和血液中的活微生物,宿主细胞或裂解细菌需要更多研究工作来确定。

肿瘤中低生物量微生物测定仍受到现有技术的限制。


M菌笔记


数据网页:

http://cancermicrobiome.ucsd.edu/CancerMicrobiome_DataBrowser

参考文献

Poore G D, Kopylova E, Zhu Q, et al. Microbiome analyses of blood and tissues suggest cancer diagnostic approach[J]. Nature, 2020: 1-8.


本文系

菌探Momics(ID:Momics)原创,欢迎个人转发分享。其他任何媒体、网站如需转载,须在正文前注明来源菌探Momics


Nature | 血液微生物 AI 预测癌症(原文死磕版)


分享到:


相關文章: