人類基因組的Phasing原理是什麼?

人類基因組的Phasing原理是什麼?

什麼是Phasing?

Phasing,或者說Genotype Phasing,它的中文名有很多:基因定相、基因分型、單倍體分型、單倍體構建等在不同的語境下都有人說過。但不管如何,所謂Phasing就是要把一個二倍體(甚至是多倍體)基因組上的等位基因(或者雜合位點),按照其親本正確地定位到父親或者母親的染色體上,最終使得所有來自同一個親本的等位基因都能夠排列在同一條染色體裡面。

現在流行的NGS測序技術,都是把序列打亂混在一起測序的,測完之後,我們是無法直接區分這些序列中哪一個是父源,哪一個是母源的。我們通常都只是檢測出基因組上有哪些變異,以及這些變異的鹼基組成(純合、雜合),也就是平時所說的基因型(Genotype)。只有經過Phasing,才能夠實現這個區分(圖1)。

人類基因組的Phasing原理是什麼?

圖1. 變異位點經過Phasing和不經過Phasing的示意圖。右上圖代表通常的Genotype,

為什麼要Phasing

因為Phasing很重要。Phasing的重要性可以分為兩個方面。一方面, Phasing與遺傳變異的功能詮釋密切相關。這體現在遺傳諮詢師或者科學家需瞭解基因突變的相位後, 才能更好地判斷基因突變是否會產生臨床表型。比如在一個基因上發生多個Loss of function variants(LOF),通常當這些變異出於不同的單倍型時(這稱為trans-configuration),即兩個拷貝的姐妹基因都發生了變異, 才會導致基因表達計量(Gene expression dosage)的錯誤且產生危害。而當它們出於同一個單倍型時(這稱為cis-configuration),因為還有一個正常拷貝的基因(作為備胎), 基因表達很可能不會發生改變也不會產生危害。

另一方面, Phasing在遺傳學研究中也有諸多應用,具體如下:

  • 第一、人群Phasing後形成的單倍型參考序列集(Reference panel)是基因型推斷(Imputation)必須的數據材料。而基因型推斷(Imputation)是基因型-表型關聯分析研究中必不可少的環節。高質量的Reference Panel能提升關聯分析的統計功效;

  • 第二、除了Reference Panel的製造需要使用Phasing技術之外,對被研究的對象進行預先Phasing(Pre-phasing)也可以極大地提高基因型推斷(Imputation)的準確性;

  • 第三、使用多個位點組成的Haplotype,而不是簡單的單位點基因型, 可實現群體遺傳歷史的推斷;

  • 第四、可通過Phased後的家系人群單倍型序列,估算染色體重組率、重組熱點等重要遺傳參數;

  • 第五、Phasing可用於探測頻發突變、選擇信號以及基因表達的順勢調控。

Phasing說起來容易,做起來卻很難

雖然Phasing理解起來並不難,但實現起來卻不容易,即使在理論上也是如此。這需要相關的統計學和計算機算法技術,求解的過程往往還是一個NP問題。目前通常採用馬爾科夫鏈蒙特卡洛算法來完成,因此,Phasing算法本身基本都是計算密集型的,做起來也比較耗時間,有時即使是在超算集群中也得跑很長時間。

Phasing的方法有哪些

Phasing的方法總結起來主要有三個:家系分型(Related individuals Phasing)、群體LD分型(LD Phasing)和物理分型(Physical Phasing)下面我就來逐一展開對其方法進行說明。

目前,基因定相最準確的方法是利用家系數據來實現。具體來說,就是除了被研究的這個個體之外,同時對其父親和母親的基因組進行測序。有了這三個人的數據之後,就可以很容易地區分出這個樣本的兩個單倍體。為了便於理解,我打個比方,比如我們知道他/她的基因組某一個位置上的基因型是AB,而父親的基因型是AA,母親的基因型是BB,那麼我們就可以清楚地知道他/她這個基因上的A是來自於父親染色體,而B則是屬於母親染色體的,更多的具體情況可以參看下面這個示意圖。

人類基因組的Phasing原理是什麼?

圖2. 家系數據實現對子/女基因組的Phasing示意圖

這個方法的一大優點就是定相(Phasing)的過程非常直接、簡單,不需要進行復雜的統計學計算,就可以準確地實現長距離的定相,並且還能夠知道每一個基因型的親本來源到底是什麼,比如在上面的例子中,我們可以知道A和B分別屬於父本和母本(如上圖)。這個親本來源的問題對於研究或者治療許多複雜疾病的意義是十分重大的,比如最近發表在《Science》上的一個研究中發現,影響小孩發生孤獨症(也稱自閉症)的基因突變中父親的影響更大,除此之外還有很多母源或者父源性的疾病(這裡面其實還涉及到Transmitted和Non-Transmitted Chromosome的問題),這些類型的結果如果沒有家系的數據是無法得出的。

對於這個方法來說,家系越龐大它的Phasing效果會越好。萬一很不幸我們沒能湊齊一家三口(Trio樣本)僅有雙樣本的情況,也不用灰心,雖然效果會差一些,但還是會比沒有任何族譜信息的數據要好。

家系Phasing的這個方法雖有很多難以比擬的好處,但也有一些比較明顯的缺點。比如,我們為了對這個人進行定相分析,就不得不多測另外兩個人的基因組。這一方面大大增加了原有的成本;另一方面則是有些人由於各種各樣的原因已經難以獲取其雙親的樣本數據了;另外,這個方法其實也無法完成對該個體所有變異的完全定相,比如當碰到父、母和子/女都是雜合突變的位點時,就無法區分了。這樣的位點雖然在基因組上不是最主要的,但是也大約佔到了總變異位點數的13%左右,或者說有大約五分之一的雜合突變位點(注意只是佔所有雜合的比例)是這種不可Phasing的狀態,詳細的分類情況可以參考下表:

人類基因組的Phasing原理是什麼?

表1. 能夠被Phasing和不能夠被Phasing的SNPs位點分類

LD Phasing是另外一個非常常用的基因定相方法,它是利用群體中大量無血緣關係的個體,依據基本的連鎖不平衡(Linkage disequilibrium,LD)遺傳原理和相關數學模型,推斷群體中每個個體的單倍體的方法,因此它也是計算量最大的一個。

我們知道人這個物種在減數分裂產生生殖細胞的過程中姐妹染色單體會發生重組,這個重組的發生率每代大約是10^-8,雖然很低,但是隨著一代接一代不斷地繁衍下去,經過足夠長的時間之後(比如說無窮!無窮!無窮!)。

人類基因組的Phasing原理是什麼?

那麼從理論上來講,來自同一祖先的兩條染色就會被均勻地重組一個遍。然而,遺憾的是我們現代人還是Too Youg Too Simple!從最早的證據來看現代人的共同祖先大概起源於15萬-19萬年前(第三次走出非洲的時間),所以至今我們也不過才經歷了6,000-7,600代而已。

這麼少的代數也就意味著染色體的重組其實還很有限,因此人類基因組中許多相鄰的區域往往都是“黏”在一起遺傳下去的,這也就是所謂的存在連鎖不平衡的遺傳現象,這些“黏”在一起的區塊稱為“連鎖不平衡區塊”(LD Block)。

常見變異——那些在人群中頻率佔比達到5%以上的變異——所存在的連鎖不平衡區塊(LD Block,Tajima’s D > 0.5)的長度大多集中在50Kbp-60Kbp。並且LD區塊的長度在不同的人群中是不同的,比如,非洲人的LD區塊就比歐洲人和亞洲人的更短。為什麼呢?這是因為非洲人比歐洲人或者亞洲人都要更古老,他們的基因組相比於另外的兩個人群發生了更多次數的重組,所以LD區塊的長度就更短了。

LD區塊的存在就意味著我們可以通過構建相關的數學模型,來把這樣的連鎖關係求解出來。在開展大規模的基因組研究計劃時(如Hapmap、國際千人基因組、Haplotype reference consortium以及各國家的國家基因組計劃),通過構建基於隱馬爾可夫模型(HMM)等的Phasing算法就可以依據測序數據或者芯片數據,反推出每個個體最有可能的單倍體,完成Phasing。

目前,適合於以上兩種Phasing方法(家系和LD Phasing)的最好工具是Beagle和Shapeit。這兩個工具都同時包含了用於家系(Related individual Phasing)和LD Phasing的模塊。並且都可以用於測序數據和芯片數據,但其中的差別在此不贅述。

回過頭來想想LD Phasing方法的缺點是什麼?其實通過上面的介紹,我想大家或多或少也注意到了,由於這個方法需要依據群體的信息,那麼它所能夠Phasing的精度就會受到群體的制約。通常來說它只能針對群體中常見的變異(如頻率在5%以上的變異),在這方面它的效果確實非常棒,很多基因檢測公司甚至會把這個作為公司產品的買點,但對於罕見突變和個體特有的變異就不行了。雖然隨著人群基數的增大,它所能夠Phasing的變異範圍也會隨著不斷增加,比如從只能Phasing 5%以上頻率的變異,增大到能夠Phasing 1%以上頻率的變異,但說到底它還是難以實現對一個個體單倍體的完全定相。

那麼,到底該怎麼做才能實現完全定相呢?

正所謂,求人不如求己。由於有了以上的種種限制,於是科學家們就研發了第三類方法:Physical Phasing——「物理定相(或叫物理分型)」。它不需要家系數據,也不借助LD關係,完全依賴自身的測序數據,就可以完成基因的定相。

我們都知道在第二代或者三代測序中,一條read、一對reads或者一個clone上的每一個鹼基都必定來自同一個染色體(也就是同一個單倍體)。對於每一個這樣的測序片段而言,它本身就是某一個單倍體的一個“局部”,因此現在的問題就變成了要如何把這些一個一個的小”局部“連成一個整體,接出完整的單倍體,從而實現定相,這就是Physical Phasing。而且如果測序序列足夠長(比如三代測序數據),深度足夠深,那麼它就能夠實現個體的完全定相,而且有必要的話還可以同時把這兩個單倍體的完整DNA序列組裝出來,形成姐妹染色單體,這兩個優點是另外兩個方法難以比擬的。

長序列可以來自特殊建庫,如長度約是40Kbp的Fosmid建庫後的測序和組裝,或者是華大測序儀的Long Fragment Read(LFR)測序技術,當然也可以是第三代測序的數據。

這也是我(礦工)在華大基因深度負責的第一個研究課題(我的博士論文也是基於該課題)。當時這一塊還比較空白,第三代測序技術也還不是很成熟,當時為了獲得長序列,我們採用了基於Fosmid構建大長度克隆片段然後進行二代測序並組裝的方法(如下圖),成果發表在2015年的《Nature Biotechnology》上,我也是共同第一作者。

人類基因組的Phasing原理是什麼?

圖3. 基於Fosmid和二代測序技術相結合的de novo Phasing方法

由於我當時已經為課題中的一些細節寫過兩篇文章,因此這裡就不再展開,感興趣的話你也可以查看本文最後的推薦閱讀,這裡我只介紹物理定相的基本原理。總的來說,要把局部的小片段連成一個大片段,從而實現Phasing,這個過程要做的好就需要充分藉助小片段上的雜合SNPs作為區分的標記。通過每個雜合位點上各個小片段中所含鹼基的異同和彼此之間的重疊關係,我們可以把絕大部分的小片段分成兩類,然後通過一系列的連接、二分圖構建、二分圖求解和重新組裝等方法,最後就可以把小片段逐步連成大片段,從而構建出單倍體了,如下圖(請橫著看)。

人類基因組的Phasing原理是什麼?

圖4.物理定相示意圖

物理定相的方法,往往要求每個片段中都能包含較多的雜合SNPs位點,但由於人類基因組中雜合SNPs位點之間的距離普遍在1.5Kbp左右——還是比較長的,因此測序片段本身就要足夠長,這就需要使用包括三代測序技術在內的一些測序方法,因此它的成本會比較高。我目前所知道的在Physica Phasing方面做得比較好的機構中,除了我們自己當時的小組之外,還有德國的馬克普朗克研究所( Max Planck Institute)Margret教授團隊和華大基因Brock Peters博士所在的研究組,他們建立了LFR的實驗和信息方法。

小結

關於Phasing原理的介紹到此就告一段落了,這裡在介紹LD Phasing和物理定相的時候沒有從數學原理方面去展開,希望可以看起來比較通俗易懂,並且所有的Phasing算法都只對二倍體基因組比較有效,多倍體更加困難。在實際的項目中,我們還是需要根據樣本的特點、測序策略和結果預期,有針對性地選擇其中的一種或者多種進行組合,從而達到最有效的Phasing效果,評價Phasing效果好壞的指標有兩個:

  • 第一,能夠被Phasing的變異位點越多越好;

  • 第二,正確被Phasing的位點數佔比越高越好。


  • 華大基因組裝迄今最完整人類單倍體水平基因組的重要技術細節(上)

  • 華大基因組裝迄今最完整人類單倍體水平基因組的重要技術細節(下)

  • GATK4.0和全基因組數據分析實踐(上)

  • GATK4.0和全基因組數據分析實踐(下)

  • 該如何自學入門生物信息學


分享到:


相關文章: