基因組學研究的未來之星——泛基因組

高通量測序技術的迅猛發展,極大地推動了全基因組測序進程及物種的群體進化、遺傳多樣性、性狀定位等研究。但單一或者少數參考基因組中可能會缺少部分基因,不能完全覆蓋物種的全部遺傳信息,限制了基因組學研究的深入開展。泛基因組的提出,有效解決了該問題,成為了基因組學研究的新方向。

01 什麼是泛基因組?

泛基因組(Pan-genome)指的是同一物種的全部基因,包括在所有個體中都存在的核心基因組(Core genome)和個體特有的可變基因組(Dispensable genome)。核心基因組中的基因一般與物種穩定的生物學功能和表型特徵相關,多是一些House-keeping基因;可變基因組則由僅在單個樣本或部分樣本中存在的序列組成,與物種對特定環境的適應性或特有的生物學特徵相關。通過對不同材料進行基因組測序、組裝,對組裝的不同基因組進行比對、整合,得到的共有序列即為核心基因組,其餘為可變基因組(圖1A-F)。

基因組學研究的未來之星——泛基因組

圖1 泛基因組圖譜示意圖

02 泛基因組能做些什麼?

泛基因組圖譜的構建,不僅能得到該物種較為完整的遺傳信息,還可以通過將測序個體與參考基因組比對,獲得每個個體或群體的變異情況:從簡單的單核苷酸多態性(SNP)、插入缺失突變(InDel),到大片段的結構變異(SV)、拷貝數變異(CNV),以及存在/不存在(PAV)的變化。除此之外,還可以通過對核心/可變基因組中基因的功能、特性進行比較分析,對物種的共有、特有表型產生機制進行深入探究。

基因組學研究的未來之星——泛基因組

圖2 泛基因組分析流程

03 如何構建泛基因組?

目前比較主流的構建泛基因組圖譜的方法有以下三種:

1) 迭代組裝

將多個樣本的下機數據與參考基因組比對,未比對上的reads組裝成新的contigs,將這些contigs添加到原始的參考序列中,構建、獲得物種的泛基因組圖譜(圖3a),小麥泛基因組就是採用這種方法進行構建的[1]。該方法能夠快速得到泛基因組信息,適合大規模的群體研究,但在物種基因組較大,或者測序深度較低的情況下,該方式組裝的contigs連續性較差,準確性較低。

2) 基於基因組de novo

分別對多個個體進行從頭組裝、註釋,從全基因組層面識別SV/SNP/InDel/CNV及PAV,是目前泛基因組研究運用最廣的方法(圖3b),近期發表的油菜泛基因組就是基於該方法[2]。這種方法不依賴於參考基因組,可以避免因參考基因組質量問題引起的比對誤差,但需要比較高的測序深度(>50X),以確保從頭組裝的準確性。

3) 圖形泛基因組

圖形泛基因組是在基因組de novo的基礎上,基於圖論的組裝方法,利用有向圖將物種基因組分為核心基因組與可變基因組(圖3c),近期發表的大豆泛基因組即基於該方法[3]。與迭代組裝和基因組de novo相比,圖形泛基因組整合了多個基因組的變異信息,代表了該物種更全面的遺傳信息,基於此可進行更準確的變異信息挖掘。圖形泛基因組的技術和算法尚未成熟,目前應用還較少,是泛基因組的未來發展趨勢。

基因組學研究的未來之星——泛基因組

圖3 泛基因組圖譜構建方法[4]

04 HiFi reads在泛基因組學研究中有哪些優勢?

PacBio HiFi reads兼具了長讀長、高準確度的特點,用於基因組組裝時無需進行三代數據自糾錯及二代數據校正,有效節約了分析時間及計算資源,低深度(10-15X)HiFi reads組裝後即可進行泛基因組研究。相比高深度的二代數據,HiFi reads組裝效果更好,得到的泛基因組信息更加準確,可以進行全變異(SNP、InDel、SV、CNV、PAV)檢測,避免了二代數據讀長短和三代納米孔測序準確性低的弊端。

總 結

泛基因組圖譜的構建使我們能夠獲得更全面的物種基因組信息,高準確度的HiFi reads有效保障了泛基因組圖譜的準確性,進而獲得更精準的個體或群體遺傳變異信息,從基因組層面深入解析重要經濟價值/農藝性狀/表型等的產生機制。隨著泛基因組圖譜構建方式和分析策略的逐步完善,利用泛基因組解決功能基因組學的研究難題逐漸成為了一個新熱點。

參考文獻

[1] Montenegro JD, Golicz AA, Bayer PE, et al. The pangenome of hexaploid bread wheat[J]. Plant Journal, 2017, 90(5):1007.

[2] Song JM , Guan Z, Hu J, et al. Eight high-quality genomes reveal pan-genome architecture and ecotype differentiation of Brassica napus[J].Nature Plants, 2020, 6(1):1-12.

[3] Liu Y, Du H, Li P, et al. Pan-genome of wild and cultivated soybeans[J].Cell, 2020, 182(1).

[4] Bayer PE, Golicz AA, Scheben A, et al. Plant pan-genomes are the new reference[J]. Nature Plants, 2020, 6(8):1-7.


分享到:


相關文章: