血液微生物 AI 预测癌症(白话版)


Nature | 血液微生物 AI 预测癌症(白话版)


文献速递


癌症微生物组的系统表征为开发可利用非人的微生物来源的分子诊断主要的人类疾病的技术提供了机会。重新分析了癌症基因组图谱(TCGA)的全基因组和全转录组测序研究中从未经治疗的 33 种癌症(共18,116个样本)的微生物数据,在大多数主要癌症内和组织和血液之间中发现了独特的微生物特征。尽管在非常严格的去污染条件下丢弃高达 92.3% 总序列数据后,这些 TCGA 血液特征对 Ia-IIc 期癌症和在两个商业级游离肿瘤 DNA 平台检测无基因组改变的癌症依旧具有可预测性。此外,仅用血浆来源的游离微生物核酸可以区分健康,无癌症的个体(n = 69)和多种癌症患者(前列腺癌,肺癌和黑色素瘤;n = 100)

Keywords: Cancer, Diagnostic markers, machine learning, metagenomics, Microbiome

Title: Microbiome analyses of blood and tissues suggest cancer diagnostic approach

DOI: 10.1038/s41586-020-2095-1

Journal: Nature [IF 43.07]

First Authors: Gregory D Poore,Evguenia Kopylova

Correspondence: Rob Knight

Affiliation: Department of Bioengineering, University of California San Diego, La Jolla, CA, USA

Published: 2020-03-11


研究背景


在癌症样品收集,处理和测序过程中引入的污染限制微生物对癌症影响的研究;

癌症微生物先前有小规模研究,但大量 TCGA 的微生物数据尚未开发。


研究结果


01.TCGA癌症微生物组及其标准化

作者首先从 TCGA 收集了来自 10,481 个人的 18,116 个样品经过元数据质控后最后只使用来自 10,183 个人的 17,625 个样品分析,这些样品覆盖了 32 种癌症。

一共获得 6.4×10 12 个测序读数中,有 7.2% 为非人类序列,其中 35.2% (占总的2.5%)为细菌、古细菌或病毒,其中 12.6% (占总的0.9%)用 Kraken 定位到属水平(图1a)。

作者将 Kraken 的结果和 bwa 比对结果比较,Kraken 假阳性率较低(1.09%),说明Kraken 数据可用下游分析。

用 Voom 的对数转换(log-cpm)和归一化(SNM)处理消除批次效应。

主方差分量分析显示处理后能减小效果批次同时增加生物信号(包括“疾病类型”)。

Nature | 血液微生物 AI 预测癌症(白话版)

Approach and overall findings of the cancer microbiome analysis of TCGA. a, Lollipop plot showing the percentage of total sequencing reads identified by the microbial-detection pipeline, and those resolved at the genus level in TCGA data set by Kraken. LAML, acute myeloid leukaemia; PAAD, pancreatic adenocarcinoma; GBM, glioblastoma multiforme; PRAD, prostate adenocarcinoma; ESCA, oesophageal carcinoma; TCGT, testicular germ cell tumours; BRCA, breast invasive carcinoma; THCA, thyroid carcinoma; KICH, kidney chromophobe; THYM, thymoma; READ, rectum adenocarcinoma; SARC, sarcoma; UVM, uveal melanoma; CHOL, cholangiocarcinoma; ACC, adrenocortical carcinoma; UCEC, uterine corpus endometrial carcinoma; LUSC, lung squamous cell carcinoma; PCPG, pheochromocytoma and paraganglioma; BLCA, bladder urothelial carcinoma; UCS, uterine carcinosarcoma; LGG, brain lower grade glioma (Extended Data Fig. 1a). The number of samples included for each cancer type and sample type can be found in Supplementary Table 4. b, CONSORT-style diagram showing quality control processing and the number of remaining samples. FFPE, fixed-formalin paraffin-embedded. c, Principal components analysis (PCA) of Voomnormalized data, with cancer microbiome samples coloured by sequencing centre. d, PCA of Voom-SNM data. e, Principal variance components analysis of raw taxonomical count data, Voom-normalized data, and Voom-SNM data. f–h, Heatmaps of classifier performance metrics (AUROC (ROC) and AUPR (PR)) from red (high) to blue (low) for distinguishing between TCGA primary tumours (f), between tumour and normal samples (g), and between stage I and stage IV cancers (h). NA, fewer than 20 samples available in any ML class for model training.


02.肿瘤类型内与外的预测

数据准备好了,作者就开始 AI (stochastic gradient-boosting 机器学习模型) 预测工作。

首次模型训练预测得到一下的结论(图1 f-g):

(i)一种癌症与所有其他癌症(n = 32种癌症)和(ii)癌症与正常(n = 15种癌症)性能表现很好;(iii)区分 COAD、STAD、KIRC 的 I 期和 IV 表现良好但在其余5种癌症不区分不同阶段。

接着将这批数据各种拆分组合验证这种方法的可行和通用性,且上述的结论可靠。

最后,作者再用 SHOGUN 流程替代基于 Kraken 的流程,一样的数据处理和模型训练,正如预期,AI 预测结论依旧表现出色。

基于上述的工作,基本说明了仅基于微生物区分癌症的归一化和模型训练方法可行可重现。


03.微生物谱的生物学相关性

上面已经证实了仅基于微生物可以 AI 区分癌症,接下来就要解释这些微生物的生物学意义。

首先得回答这些微生物是不是“原生”器官特有的。于是,作者将 HMP2 项目中覆盖 8 个身体部位的 217 个样本作为污染源,用 SourceTracker2 追踪这些微生物中有多少是来自身体其他部位而不是原生态。测试 70 个 COAD 实体瘤癌旁样本和 122 个 SKCM 原发性肿瘤中,发现粪便是 COAD 中主要人体部位来源的是粪便,但在 SKCM 中粪便不是主要来源。这就说明了癌症的微生物生态有部分是特有的。

接下来作者分别从梭杆菌属(Fusobacterium spp.)与胃肠道肿瘤、Alphapapillomavirus 属 与 CESC、HBV genus (Orthohepadnavirus ) 与 LIHC,三个维度去阐述 AI 选出来的部分 marker 与癌症的发生是有生物学意义的,且极有可能作为某种类型癌症预测的关键点。

作者还将更多的数据部署在交互网站(http://cancermicrobiome.ucsd.edu/CancerMicrobiome_DataBrowser),以便大家扩展研究更多样本和微生物。

Nature | 血液微生物 AI 预测癌症(白话版)

Ecological validation of viral and bacterial reads within the TCGA cancer microbiome data set. a, Average body site attribution for solid-tissue normal samples from patients with COAD (n = 70) using Source Tracker2 trained on the HMP2 data set. b, Differential abundances of the Fusobacterium enus for common gastrointestinal (GI) cancers associated with Fusobacterium spp.. BDN, blood derived normal; STN, solid tissue normal; PT, primary tumour. c, Differential abundances of Fusobacterium among grouped GI ancers (n = 8: COAD, READ, CHOL, LIHC, PAAD, HNSC, ESCA, STAD) and non-GI ancers (n = 24) (see Methods). d, e, Normalized HPV abundances for HPVinfected atients with CESC (d) or HNSC (e), as clinically denoted in TCGA. ISH, n situ hybridization; IHC, immunohistochemistry. f, Normalized rthohepadnavirus abundance in patients with LIHC with clinically djudicated risk factors: HepB, prior hepatitis B infection; EtOH, heavy alcohol onsumption; HepC, prior hepatitis C infection. g, Normalized EBV abundance n STAD integrative molecular subtypes: CIN, chromosomal instability; GS, enome stable; MSI, microsatellite unstable; EBV, EBV-infected samples. In all panels, blood-derived normal and/or solid-tissue normal data are shown as comparative negative controls; two-sided Mann–Whitney U-tests were used with multiple testing correction for more than two comparisons; box plots show median (line), 25th and 75th percentiles (box), and 1.5 × the interquartile range (IQR, whiskers). Blue numbers show sample sizes.


04.衡量和减少污染

证实微生物 AI 区分癌症可行且具有生物学意义之后,如果实际运用的话,不可避免的问题是如何识别操作引入的污染微生物?

作者首先通过算法模拟数据,列出可能污染物 list1;然后经过人工文献复核,得到假定的污染物 list2;还给出了最严格过滤标准;其中按照最严格过滤条件,将丢弃了约 92% 的 reads。去污染物后再次 AI 预测,结论还是保持一致的,除了 DLBC 和 MESO 的模型变得不太可靠。

此外,作者强调本文计算模拟的污染物并不能替代实验按照黄金微生物标准处理得到的结果。且严格去除污染物会有消除真实信号的风险


05.用血液微生物DNA预测

解决了技术问题,接下来就需要证明这项技术是否值得推广,它的现实意义。

首先,先证明仅用血液微生物 DNA(mbDNA)也能区分多种癌症,除 CESC、KIRP、LIHC 之外。接着,这套检测方法对于那些商业液体活检(ctDNA检测)失误的样品(即没能检出基因组改变 Ia–IIc 期癌症和肿瘤)也有很好性能。这就充分体现出这套技术的价值了。

但是作者也说明了,这套方法也存在局限性:无法溯源 mbDNA,如:微生物 DNA 是来源活体还是死去的微生物;mbDNA 是原病灶原有的微生物还是别的地方转移的(如肠漏)。

(i)无法获得主要样本,(ii)属水平分类学解析度,(iii)不知道同时处理了非 TGA样本。

Nature | 血液微生物 AI 预测癌症(白话版)

Classifier performance for cancer discrimination using mbDNA in blood and as a complementary diagnostic approach for cancer ‘liquid’ biopsies. a, Model performance heatmap analogous to Fig. 1f–h to predict one cancer type versus all others using blood mbDNA with TCGA study IDs on the right; at least 20 samples were required in each ML minority class to be eligible. b, ML model performances predicting one cancer type versus all others using blood mbDNA for stage Ia–IIc cancers. c, d, ML model performances using blood mbDNA from patients without detectable primary tumour genomic alterations, per Guardant360 (c) and FoundationOne Liquid (d) ctDNA assays.


06.验证血液的微生物特征

最后,作者用真实样品的验证上述的结论。

验证样品是 69 名无癌症和无 HIV 的个体,100 名三种类型癌症的患者:前列腺癌(n = 59;PC);肺癌(n = 25;LC)和黑色素瘤(n = 16;SKCM)的血浆。在宏基因组深度测序是实验操作设置大量的对照作为后续污染控制。

同上述方法一样,先用 Kraken 流程 AI 预测,结果发现除了 SKCM 预测效果不好,其他肿瘤的预测效果还是相当不错的,结果也是经过多次不同组合的验证的。最后再用 SHOGUN 流程重复 Kraken 流程的工作,两套分析流程的结论高度一致。

在此,作者证实了用血液微生物 DNA 的特征可以预测不同癌症类型的。

Nature | 血液微生物 AI 预测癌症(白话版)

Performance of ML models to discriminate between types of cancer and healthy controls using plasma-derived, cell-free mbDNA. a, Demographics of samples analysed in the validation study. All patients had high-grade (stage III–IV) cancers of multiple subtypes and were aggregated into PC, LC, and SKCM groups. b, Bootstrapped performance estimates for distinguishing grouped cancer samples (n = 100) from non-cancer healthy controls (n = 69). Rasterized density plot of ROC (top) and PR (bottom) curve data from 500 iterations with different training–testing splits (70%–30%). c–h, LOO iterative ML performances between two classes: PC versus control (Ctrl; c), LC versus control (d), SKCM versus control (e), PC versus LC (f), LC versus SKCM (g), and PC versus SKCM (h). i–k, Multi-class (n = 3 or 4), LOO iterative ML performances to distinguish among types of cancer (i) and between mixed patients with cancer and healthy control individuals ( j, k). Overall LOO ML performance was calculated as the mean of performances when comparing one versus all others (shown below as confusion matrices).


结果与讨论


各类癌症与特定微生物群之间存在广泛的关联,这些微生物特征似乎能区分大多数类型的癌症,包括商业的液体活检无法检测出基因组改变的癌症早期患者。

即便经过大量内部验证检查和去污染,甚至丢弃超过 90% 的总数据,结论依旧有效。

仅用血浆中游离的 mbDNA 同时设置大量内部和外部的污染对照,对健康对照组和患有多种类型癌症患者同样具有较高的区分度,提示使用广泛可用的样本进行临床相关和回顾性检验是可行且可推广的。

追踪核酸是否来自肿瘤微环境和血液中的活微生物,宿主细胞或裂解细菌需要更多研究工作来确定。

肿瘤中低生物量微生物测定仍受到现有技术的限制。


M菌笔记


数据网页:

http://cancermicrobiome.ucsd.edu/CancerMicrobiome_Data

参考文献

Poore G D, Kopylova E, Zhu Q, et al. Microbiome analyses of blood and tissues suggest cancer diagnostic approach[J]. Nature, 2020: 1-8.


撰稿 | Yanni 责编 | NSC

本文系菌探Momics(ID:Momics)原创,欢迎个人转发分享。其他任何媒体、网站如需转载,须在正文前注明来源菌探Momics


Nature | 血液微生物 AI 预测癌症(白话版)


分享到:


相關文章: