NBT:宏基因組"讀雲"建庫+雅典娜算法組裝獲得微生物高質量基因組

讀雲(read clouds)組裝高質量末培養的微生物基因序列

NBT:宏基因组

High-quality genome sequences of uncultured microbes by assembly of read clouds

Nature Biotechnology, [35.724]

鏈接: http://dx.doi.org/10.1038/nbt.4266

通訊作者:Serafim Batzoglou, Ami S Bhatt

主要單位:加州,斯坦福大學,計算機系,醫學與遺傳學系

其它作者:Eli L Moss, Mikhail Kolmogorov, Alma E Parada, Ziming Weng, Arend Sidow, Anne E Dekas

PDF:https://www.nature.com/articles/nbt.4266.pdf

熱心腸日報導讀

Nature子刊:新技術“讀雲”可獲得高質量宏基因組序列

新技術“讀雲”可獲得不可培養微生物的高質量基因組序列

① 讀雲(read clouds)技術建庫分為兩步,先將宏基因組封裝在大量含有一條或多條長DNA序列的微液滴中,再從這些子集構建帶條碼的短序列文庫測序;

② 配套的“雅典娜(Athena)”組裝算法則先結合條碼對子集進行組裝,然後在子集之上組裝得到宏基因組序列;

③ 通過對人糞便樣本和海洋沉積物樣本測序,評估了讀雲技術相較於長讀長三代測序和短讀長二代測序策略的優勢;

④ 發現讀雲在低丰度物種發現、宏基因組分箱、基因組完整性等各項指標上均明顯佔優。

主編評語:“讀雲”的核心是採用了微液滴封裝技術降低了宏基因組複雜性,之後再結合現有方法測序和新算法組裝。這相當於對宏基因組展開了一場“降維攻擊”。

關鍵字:宏基因組,新一代測序技術,宏基因組算法,微液滴封裝

摘 要

儘量宏基因組測序微生物組樣本可以部分重建群體菌株水平結果,但僅獲得分離難培養微生物的高質量基因組草圖。

這裡,我們呈現了一個“讀雲(read clouds”新方法,對微生物樣本短序列標籤化結合長序列來源的信息。

我們開發Athena組裝軟件,可以使用讀雲方式的標籤化序列從頭組裝,以改進宏基因組組裝。

使用此方法應用於兩個健康人糞便樣本,與現有的短讀長和合成長讀長的宏基因組測序技術比較,即使細菌丰度小於20X下,讀雲方法宏基因組測序和Athena組裝結果有最好的基因組草圖(N50> 200kb,小於10個重疊群)。

我們也測序複雜的海洋沉積物,產生24箇中等質量的基因組草圖(完整度 > 70%,汙染率 < 10%),其中9個達到完整的水平(完整度 > 90%,汙染率 < 5%)。

本方法可基於單個樣本的宏基因組測序,無須微生物分離培養,即可獲得高質量的微生物基因組草圖。

圖1. 讀雲鳥槍測序和組裝方法技術路線

NBT:宏基因组

(a) 微生物組樣本DNA提取,片段選擇富集長片段。將長片段稀釋,鬆散的分隔在上百萬個小液滴中。變性擴增這些長片段,獲得有標籤的短序列文庫,每個空間的標籤是唯一的。然後文庫混合並使用Illumina測序。

(b) 雅典娜組裝工具使用讀雲產生更全面的草稿,如基因組重複可以正確放置。圖中顯示為正確識別重複序列的例子。

(i) 讀雲採用標準短讀長技術獲得種子重又不群,再利用序列比對,雙端序列擴展重疊群為支架(scaffold),現在包括無法確定的分枝。

(ii) 在每個邊,雅典娜基於相同標準的小範圍內數據組裝解決分枝問題。例如紅、藍進行子集組裝支持了準確的分枝選擇。

(iii) 亞組裝的重疊群與起始重疊群進一步基於DB圖組裝。這樣宏基因組草圖信息更準確,可組裝出正確的重複序列。

圖2.兩位健康人個體糞便的微生物屬水平組成

NBT:宏基因组

(a,b) 三種建庫方式下短序列分類屬水平的相對丰度P1(a)和P2(b)。結果可見三種見庫方式下屬水平結果相當一致。樣品P1多樣性比P2更高。

NBT:宏基因组

(c,d) P1、2樣品拼接基因組草圖的完整度和連續性N50。讀雲方法最好。結果只展示每個屬中最完整的分箱。單拷貝基因預測採用chechm預測和評估。不完整(圖中X,<90%)、完整(圖中圓,>90%完整,<5%汙染),高質量(圖中三角,完整基礎上要求至少有18個tRNA,至少一個5S、16S和23S)。讀雲測序和組裝產生高質量和完整的基因組草圖。

圖3.三種方法獲得基因組草圖評估。

NBT:宏基因组

讀雲穩定獲得完整和高質量基因組草圖,遠優於其它方法,即使在50X以下低丰度計算完整和高質量的基因組數量也表現優異。

完整分箱的數量在不同最小N50(a) 、最小讀段覆蓋度(b相對於低丰度物種)和最小覆蓋度且N50大於200 kb(c)條件下。

高質量的分箱(完整基礎上,且至少18個tRNAs,至少一個5S, 16S, 23S)的數量與N50,最小覆蓋度和N50>200kb時最小覆蓋度;

圖4.三種方法基因組Bin的完整度

NBT:宏基因组

基於讀雲、合成長讀長(SLR)和短讀長三種方法,對健康人類糞便樣本進行測序和組裝,進一步分箱結果的完整性比較。讀雲(金色)與SLR和短讀長(會將一個完整的基因組分為2個或更多的分箱)相比,產生更全面、高質量的物種基因組草圖。圖中少在兩種方法中發現,且在一種方法中完整的Bin。

(a) 三種方法不同物種數量下分箱的數量,讀雲獲得最多單個物種的分箱;

(b) 三種方法完整、高質量分箱的數量;讀雲產生最多的完整和高質量的分箱;

(c) 三種方法下Bin物種註釋和對應的混合物種數量。顏色代表方法,形狀代表完整度。幾乎所有的物種獲得高質量的基因組草圖,僅有單個分箱屬於這些物種。如大腸桿菌、梭菌等包括一些小的不完整的分箱;

(d) 每類物種最大分箱中包括的基因數量。讀雲產生的分箱在絕大多數物種中包括最多數量的基因。SLR方法在B. uniformis中基因最多,但存在15%的汙染。

圖5. Bin基因組與參考基因組比較

NBT:宏基因组

與參考基因組比較三種分箱方法的結果。Dot-plot展示最近參考基因組(X軸)與雅典娜組裝分箱(Y軸)的共線性和完整性。每種顏色代表一條contigs。可以在圖中觀察到大片段的倒位;同時另兩種方法的結果在讀雲結果中覆蓋情況,在其它Bin中的contigs用淺黃色表示。

圖6. 海洋沉積物讀雲測序下短讀長組裝與雅典娜組裝的基因組草圖比較

NBT:宏基因组

可見雅典娜組裝(黃色),比短讀長組裝(藍色)獲得更多的高質量和中等質量的分析。

(a) 完整度 > 70%,汙染率 < 10%的中等質量分箱

(b) 包含16S序列的中等質量分箱

(c) 有16S序列的高質量基因組草圖

猜你喜歡

10000+:菌群分析寶寶與貓狗 梅毒狂想曲 提DNA發Nature Cell專刊 腸道指揮大腦

系列教程:微生物組入門 Biostar 微生物組 宏基因組

專業技能:學術圖表高分文章生信寶典 不可或缺的人

一文讀懂:宏基因組 寄生蟲益處 進化樹

必備技能:提問 搜索 Endnote

文獻閱讀 熱心腸 SemanticScholar Geenmedical

擴增子分析:圖表解讀 分析流程 統計繪圖

16S功能預測 PICRUSt FAPROTAX Bugbase Tax4Fun

在線工具:16S預測培養基 生信繪圖

編程模板: Shell R Perl

生物科普: 腸道細菌人體上的生命生命大躍進 細胞暗戰 人體奧秘

寫在後面

為鼓勵讀者交流、快速解決科研困難,我們建立了“宏基因組”專業討論群,目前己有國內外2600+ 一線科研人員加入。參與討論,獲得專業解答,歡迎分享此文至朋友圈,並掃碼加主編好友帶你入群,務必備註“姓名-單位-研究方向-職稱/年級”。PI請明示身份,另有海內外微生物相關PI群供大佬合作交流。技術問題尋求幫助,首先閱讀《如何優雅的提問》學習解決問題思路,仍末解決群內討論,問題不私聊,幫助同行。

學習16S擴增子、宏基因組科研思路和分析實戰,關注“宏基因組”


分享到:


相關文章: