血液微生物 AI 預測癌症(白話版)


Nature | 血液微生物 AI 預測癌症(白話版)


文獻速遞


癌症微生物組的系統表徵為開發可利用非人的微生物來源的分子診斷主要的人類疾病的技術提供了機會。重新分析了癌症基因組圖譜(TCGA)的全基因組和全轉錄組測序研究中從未經治療的 33 種癌症(共18,116個樣本)的微生物數據,在大多數主要癌症內和組織和血液之間中發現了獨特的微生物特徵。儘管在非常嚴格的去汙染條件下丟棄高達 92.3% 總序列數據後,這些 TCGA 血液特徵對 Ia-IIc 期癌症和在兩個商業級遊離腫瘤 DNA 平臺檢測無基因組改變的癌症依舊具有可預測性。此外,僅用血漿來源的遊離微生物核酸可以區分健康,無癌症的個體(n = 69)和多種癌症患者(前列腺癌,肺癌和黑色素瘤;n = 100)

Keywords: Cancer, Diagnostic markers, machine learning, metagenomics, Microbiome

Title: Microbiome analyses of blood and tissues suggest cancer diagnostic approach

DOI: 10.1038/s41586-020-2095-1

Journal: Nature [IF 43.07]

First Authors: Gregory D Poore,Evguenia Kopylova

Correspondence: Rob Knight

Affiliation: Department of Bioengineering, University of California San Diego, La Jolla, CA, USA

Published: 2020-03-11


研究背景


在癌症樣品收集,處理和測序過程中引入的汙染限制微生物對癌症影響的研究;

癌症微生物先前有小規模研究,但大量 TCGA 的微生物數據尚未開發。


研究結果


01.TCGA癌症微生物組及其標準化

作者首先從 TCGA 收集了來自 10,481 個人的 18,116 個樣品經過元數據質控後最後只使用來自 10,183 個人的 17,625 個樣品分析,這些樣品覆蓋了 32 種癌症。

一共獲得 6.4×10 12 個測序讀數中,有 7.2% 為非人類序列,其中 35.2% (佔總的2.5%)為細菌、古細菌或病毒,其中 12.6% (佔總的0.9%)用 Kraken 定位到屬水平(圖1a)。

作者將 Kraken 的結果和 bwa 比對結果比較,Kraken 假陽性率較低(1.09%),說明Kraken 數據可用下游分析。

用 Voom 的對數轉換(log-cpm)和歸一化(SNM)處理消除批次效應。

主方差分量分析顯示處理後能減小效果批次同時增加生物信號(包括“疾病類型”)。

Nature | 血液微生物 AI 預測癌症(白話版)

Approach and overall findings of the cancer microbiome analysis of TCGA. a, Lollipop plot showing the percentage of total sequencing reads identified by the microbial-detection pipeline, and those resolved at the genus level in TCGA data set by Kraken. LAML, acute myeloid leukaemia; PAAD, pancreatic adenocarcinoma; GBM, glioblastoma multiforme; PRAD, prostate adenocarcinoma; ESCA, oesophageal carcinoma; TCGT, testicular germ cell tumours; BRCA, breast invasive carcinoma; THCA, thyroid carcinoma; KICH, kidney chromophobe; THYM, thymoma; READ, rectum adenocarcinoma; SARC, sarcoma; UVM, uveal melanoma; CHOL, cholangiocarcinoma; ACC, adrenocortical carcinoma; UCEC, uterine corpus endometrial carcinoma; LUSC, lung squamous cell carcinoma; PCPG, pheochromocytoma and paraganglioma; BLCA, bladder urothelial carcinoma; UCS, uterine carcinosarcoma; LGG, brain lower grade glioma (Extended Data Fig. 1a). The number of samples included for each cancer type and sample type can be found in Supplementary Table 4. b, CONSORT-style diagram showing quality control processing and the number of remaining samples. FFPE, fixed-formalin paraffin-embedded. c, Principal components analysis (PCA) of Voomnormalized data, with cancer microbiome samples coloured by sequencing centre. d, PCA of Voom-SNM data. e, Principal variance components analysis of raw taxonomical count data, Voom-normalized data, and Voom-SNM data. f–h, Heatmaps of classifier performance metrics (AUROC (ROC) and AUPR (PR)) from red (high) to blue (low) for distinguishing between TCGA primary tumours (f), between tumour and normal samples (g), and between stage I and stage IV cancers (h). NA, fewer than 20 samples available in any ML class for model training.


02.腫瘤類型內與外的預測

數據準備好了,作者就開始 AI (stochastic gradient-boosting 機器學習模型) 預測工作。

首次模型訓練預測得到一下的結論(圖1 f-g):

(i)一種癌症與所有其他癌症(n = 32種癌症)和(ii)癌症與正常(n = 15種癌症)性能表現很好;(iii)區分 COAD、STAD、KIRC 的 I 期和 IV 表現良好但在其餘5種癌症不區分不同階段。

接著將這批數據各種拆分組合驗證這種方法的可行和通用性,且上述的結論可靠。

最後,作者再用 SHOGUN 流程替代基於 Kraken 的流程,一樣的數據處理和模型訓練,正如預期,AI 預測結論依舊錶現出色。

基於上述的工作,基本說明了僅基於微生物區分癌症的歸一化和模型訓練方法可行可重現。


03.微生物譜的生物學相關性

上面已經證實了僅基於微生物可以 AI 區分癌症,接下來就要解釋這些微生物的生物學意義。

首先得回答這些微生物是不是“原生”器官特有的。於是,作者將 HMP2 項目中覆蓋 8 個身體部位的 217 個樣本作為汙染源,用 SourceTracker2 追蹤這些微生物中有多少是來自身體其他部位而不是原生態。測試 70 個 COAD 實體瘤癌旁樣本和 122 個 SKCM 原發性腫瘤中,發現糞便是 COAD 中主要人體部位來源的是糞便,但在 SKCM 中糞便不是主要來源。這就說明了癌症的微生物生態有部分是特有的。

接下來作者分別從梭桿菌屬(Fusobacterium spp.)與胃腸道腫瘤、Alphapapillomavirus 屬 與 CESC、HBV genus (Orthohepadnavirus ) 與 LIHC,三個維度去闡述 AI 選出來的部分 marker 與癌症的發生是有生物學意義的,且極有可能作為某種類型癌症預測的關鍵點。

作者還將更多的數據部署在交互網站(http://cancermicrobiome.ucsd.edu/CancerMicrobiome_DataBrowser),以便大家擴展研究更多樣本和微生物。

Nature | 血液微生物 AI 預測癌症(白話版)

Ecological validation of viral and bacterial reads within the TCGA cancer microbiome data set. a, Average body site attribution for solid-tissue normal samples from patients with COAD (n = 70) using Source Tracker2 trained on the HMP2 data set. b, Differential abundances of the Fusobacterium enus for common gastrointestinal (GI) cancers associated with Fusobacterium spp.. BDN, blood derived normal; STN, solid tissue normal; PT, primary tumour. c, Differential abundances of Fusobacterium among grouped GI ancers (n = 8: COAD, READ, CHOL, LIHC, PAAD, HNSC, ESCA, STAD) and non-GI ancers (n = 24) (see Methods). d, e, Normalized HPV abundances for HPVinfected atients with CESC (d) or HNSC (e), as clinically denoted in TCGA. ISH, n situ hybridization; IHC, immunohistochemistry. f, Normalized rthohepadnavirus abundance in patients with LIHC with clinically djudicated risk factors: HepB, prior hepatitis B infection; EtOH, heavy alcohol onsumption; HepC, prior hepatitis C infection. g, Normalized EBV abundance n STAD integrative molecular subtypes: CIN, chromosomal instability; GS, enome stable; MSI, microsatellite unstable; EBV, EBV-infected samples. In all panels, blood-derived normal and/or solid-tissue normal data are shown as comparative negative controls; two-sided Mann–Whitney U-tests were used with multiple testing correction for more than two comparisons; box plots show median (line), 25th and 75th percentiles (box), and 1.5 × the interquartile range (IQR, whiskers). Blue numbers show sample sizes.


04.衡量和減少汙染

證實微生物 AI 區分癌症可行且具有生物學意義之後,如果實際運用的話,不可避免的問題是如何識別操作引入的汙染微生物?

作者首先通過算法模擬數據,列出可能汙染物 list1;然後經過人工文獻複核,得到假定的汙染物 list2;還給出了最嚴格過濾標準;其中按照最嚴格過濾條件,將丟棄了約 92% 的 reads。去汙染物後再次 AI 預測,結論還是保持一致的,除了 DLBC 和 MESO 的模型變得不太可靠。

此外,作者強調本文計算模擬的汙染物並不能替代實驗按照黃金微生物標準處理得到的結果。且嚴格去除汙染物會有消除真實信號的風險


05.用血液微生物DNA預測

解決了技術問題,接下來就需要證明這項技術是否值得推廣,它的現實意義。

首先,先證明僅用血液微生物 DNA(mbDNA)也能區分多種癌症,除 CESC、KIRP、LIHC 之外。接著,這套檢測方法對於那些商業液體活檢(ctDNA檢測)失誤的樣品(即沒能檢出基因組改變 Ia–IIc 期癌症和腫瘤)也有很好性能。這就充分體現出這套技術的價值了。

但是作者也說明了,這套方法也存在侷限性:無法溯源 mbDNA,如:微生物 DNA 是來源活體還是死去的微生物;mbDNA 是原病灶原有的微生物還是別的地方轉移的(如腸漏)。

(i)無法獲得主要樣本,(ii)屬水平分類學解析度,(iii)不知道同時處理了非 TGA樣本。

Nature | 血液微生物 AI 預測癌症(白話版)

Classifier performance for cancer discrimination using mbDNA in blood and as a complementary diagnostic approach for cancer ‘liquid’ biopsies. a, Model performance heatmap analogous to Fig. 1f–h to predict one cancer type versus all others using blood mbDNA with TCGA study IDs on the right; at least 20 samples were required in each ML minority class to be eligible. b, ML model performances predicting one cancer type versus all others using blood mbDNA for stage Ia–IIc cancers. c, d, ML model performances using blood mbDNA from patients without detectable primary tumour genomic alterations, per Guardant360 (c) and FoundationOne Liquid (d) ctDNA assays.


06.驗證血液的微生物特徵

最後,作者用真實樣品的驗證上述的結論。

驗證樣品是 69 名無癌症和無 HIV 的個體,100 名三種類型癌症的患者:前列腺癌(n = 59;PC);肺癌(n = 25;LC)和黑色素瘤(n = 16;SKCM)的血漿。在宏基因組深度測序是實驗操作設置大量的對照作為後續汙染控制。

同上述方法一樣,先用 Kraken 流程 AI 預測,結果發現除了 SKCM 預測效果不好,其他腫瘤的預測效果還是相當不錯的,結果也是經過多次不同組合的驗證的。最後再用 SHOGUN 流程重複 Kraken 流程的工作,兩套分析流程的結論高度一致。

在此,作者證實了用血液微生物 DNA 的特徵可以預測不同癌症類型的。

Nature | 血液微生物 AI 預測癌症(白話版)

Performance of ML models to discriminate between types of cancer and healthy controls using plasma-derived, cell-free mbDNA. a, Demographics of samples analysed in the validation study. All patients had high-grade (stage III–IV) cancers of multiple subtypes and were aggregated into PC, LC, and SKCM groups. b, Bootstrapped performance estimates for distinguishing grouped cancer samples (n = 100) from non-cancer healthy controls (n = 69). Rasterized density plot of ROC (top) and PR (bottom) curve data from 500 iterations with different training–testing splits (70%–30%). c–h, LOO iterative ML performances between two classes: PC versus control (Ctrl; c), LC versus control (d), SKCM versus control (e), PC versus LC (f), LC versus SKCM (g), and PC versus SKCM (h). i–k, Multi-class (n = 3 or 4), LOO iterative ML performances to distinguish among types of cancer (i) and between mixed patients with cancer and healthy control individuals ( j, k). Overall LOO ML performance was calculated as the mean of performances when comparing one versus all others (shown below as confusion matrices).


結果與討論


各類癌症與特定微生物群之間存在廣泛的關聯,這些微生物特徵似乎能區分大多數類型的癌症,包括商業的液體活檢無法檢測出基因組改變的癌症早期患者。

即便經過大量內部驗證檢查和去汙染,甚至丟棄超過 90% 的總數據,結論依舊有效。

僅用血漿中游離的 mbDNA 同時設置大量內部和外部的汙染對照,對健康對照組和患有多種類型癌症患者同樣具有較高的區分度,提示使用廣泛可用的樣本進行臨床相關和回顧性檢驗是可行且可推廣的。

追蹤核酸是否來自腫瘤微環境和血液中的活微生物,宿主細胞或裂解細菌需要更多研究工作來確定。

腫瘤中低生物量微生物測定仍受到現有技術的限制。


M菌筆記


數據網頁:

http://cancermicrobiome.ucsd.edu/CancerMicrobiome_Data

參考文獻

Poore G D, Kopylova E, Zhu Q, et al. Microbiome analyses of blood and tissues suggest cancer diagnostic approach[J]. Nature, 2020: 1-8.


撰稿 | Yanni 責編 | NSC

本文系菌探Momics(ID:Momics)原創,歡迎個人轉發分享。其他任何媒體、網站如需轉載,須在正文前註明來源菌探Momics


Nature | 血液微生物 AI 預測癌症(白話版)


分享到:


相關文章: