PacBio SMRT測序兩週完成六倍體加州紅杉27Gb基因組測序和組裝

PacBio的科學家們只用了兩週時間就完成了加州紅杉超大基因組的測序和組裝。而在不久以前,這種超大基因組測序加組裝的項目週期還是按年來計算的。加州紅杉是世界上最高大的植物之一,而這種宏偉植物的基因組大小在植物界也是數一數二的,高達27Gb(6倍體),其基因組大小大約是人類基因組的9倍!

PacBio SMRT測序兩週完成六倍體加州紅杉27Gb基因組測序和組裝

紅杉(Sequoia sempervirens)是世界上生長最快的針葉樹之一,曾經在整個北半球無處不在。現在,僅佔原始的

關於測序加州紅杉的初衷

很多老師有此疑問,對於15Gb的六倍體小麥基因組,應該選擇HiFi測序模式還是傳統的CLR測序模式?目前,Corteva Agriscience公司已經成功組裝了11Gb的燕麥基因組,那麼HiFi數據在一些大且複雜基因組上的表現如何呢,例如加州紅杉?HiFi Reads讀取長度和準確性之間的平衡是否能克服最艱鉅的基因組挑戰?

PacBio SMRT測序兩週完成六倍體加州紅杉27Gb基因組測序和組裝

PacBio HiFi Reads 在讀取長度(最大讀長25 kb)和準確度(讀取準確度≥99%)之間取得了平衡

加州紅杉的測序過程

PacBio SMRT測序兩週完成六倍體加州紅杉27Gb基因組測序和組裝

PacBio的科學家在斯坦福大學校園內採集加州紅杉樣本

此次測序的加州紅杉樣本採集自斯坦福大學校園內。使用BluePippin將DNA片段選擇大小設置為15 kb,更長的插入片段允許HiFi讀長達到50 kb。經過後續分析發現,高達50 kb的HiFi reads精度都可以高於Q20(99%),而且大部分HiFi reads準確度都接近Q30(99.9%)。

PacBio SMRT測序兩週完成六倍體加州紅杉27Gb基因組測序和組裝

HiFi reads 讀長分佈


PacBio SMRT測序兩週完成六倍體加州紅杉27Gb基因組測序和組裝

HiFi reads 的準確率分佈,上圖表示reads計數(Bin counts)在準確率和讀長上的分佈。可以看到這裡所有的re

經過7天的連續測序,總共獲得了606Gb HiFi數據,相當於22倍基因組覆蓋度。在之前很多使用HiFi數據進行基因組組裝的項目中發現,只需要20倍左右的基因組覆蓋度就能夠產生出色的組裝結果,而且並不需要使用NGS數據來進行糾錯。

加州紅杉基因組的組裝結果

在獲得HiFi數據之後,選擇目前最快的且專注於解析單倍型的組裝軟件Hifiasm開始加州紅杉基因組的組裝工作。

在Hifiasm軟件上運行了6天之後,組裝工作就順利完成了。具體消耗的計算資源如下;

服務器配置:64核512Gb RAM

生成HiFi數據:46,000 CUP hours

基因組組裝:7,200 CUP hours,總共分析時間6天

對比2019年Oxford Nanopore + NGS同樣組裝加州紅杉,在使用了2Tb內存的條件下最終花費了5-6個月的時間才完成組裝。

PacBio SMRT測序兩週完成六倍體加州紅杉27Gb基因組測序和組裝

Sequencing and assembling mega-genomes of mega-trees: the giant sequoia and coast redwood genomes,N

獲得的結果幾乎是預期基因組大小的兩倍,而Contig N50達到了1.92Mb!這一結果相對2019年Oxford Nanopore + NGS的組裝提升了18倍。大於預期基因組大小的組裝中,大部分可是兩個類似的單倍型,而並非完全不同的六倍體,這與最近Scott發表的紅杉相關研究類似,印證了加州紅杉的多倍體化是自多倍體事件。

PacBio SMRT測序兩週完成六倍體加州紅杉27Gb基因組測序和組裝

現有的幾種針葉樹組裝結果的比較

也許您會對上面的加州紅杉組裝結果中BUSCO評分只有59%感到迷惑,不是一般較好的組裝結果BUSCO值都要高達90%以上嗎?這是因為裸子植物(加州紅杉屬於裸子植物)的BUSCO基因集與被子植物的BUSCO基因集相差很多。這意味著針對加州紅杉使用通用的BUSCO基因集來評估基因組完整性是不準確的,只是目前我們還沒有其它更好的評估方法。

總結

那麼,我們從加州紅杉基因組研究中得到什麼呢?首先,使用HiFi數據從生物體生成高質量的基因組數據。 其次,它將徹底改變對大型,複雜的基因組裝配的認知。之前的經驗是進行超大型複雜基因組組裝需要花費大量時間和生信分析所需的計算資源,這還不包括測序時間。而加州紅杉這個龐大的基因組在短短17天內就可以完成(包括4天的樣品準備和建庫,7天的測序和6天的組裝時間)。

PacBio SMRT測序兩週完成六倍體加州紅杉27Gb基因組測序和組裝

參考文獻:

Scott AD, et al. New Phytol. 2016 Jul;211(1):186-93. doi: 10.1111/nph.13930. Epub 2016 Mar 21.


分享到:


相關文章: