CRISPR-Cas實驗的設計與分析工具


撰文 | 木蘭之枻


自2012年CRISPR-Cas系統的基本原理被釐清之後,其在基因組操作中的應用有了飛速的發展。總體而言,CRISPR-Cas系統的應用可分為三大類:一是以改變特定鹼基為目標的"編輯"研究;二是插入缺失(indels)為目標的"敲除"實驗;最後一類則是通過基因組定位以招募其它蛋白實現基因表達調控或表觀遺傳修飾的"募集"實驗。無論哪類研究,均依賴於嚮導RNA(sgRNA)引導Cas核酸酶(sgRNA-Cas複合物)實現基因組的靶向定位。現如今,CRISPR-Cas系統多樣化程度的日益增加讓基因組操作研究更加快速和靈活,眾多的軟件和分析工具也因此而誕生以用於相關實驗的設計與分析,這包括sgRNA的設計優化工具以及實驗數據的分析工具。這其中大規模CRISPR遺傳篩選的數據分析軟件的研發更是當下的重點。


2020年4月13日,來自美國哈佛大學與麻省理工學院Broad研究所的John G. Doench等在Nature Biotechnology發表題為Design and analysis of CRISPR–Cas experiments

的綜述。文章根據CRISPR-Cas實驗的不同,將軟件工具分為1sgRNA的設計與選擇,2CRISPR編輯和敲除實驗的結果分析以及3混合遺傳篩選數據的大規模分析三大類並加以總結,作者希望此文能為CRISPR-Cas系統的應用者在選擇評估相關軟件工具時提供合理的指導。


『珍藏版』Nat Biotech綜述 | CRISPR-Cas實驗的設計與分析工具

sgRNA的設計與選擇工具

靶位點的普遍性

sgRNA是CRISPR-Cas系統識別基因組中靶位點的關鍵,其序列與靶位點互補。靶位點的選擇則受限於特定的PAM序列,其序列特徵因Cas核酸酶而異。因此,特定Cas核酸酶靶位點在基因組中的普遍性取決於PAM序列的分佈情況。為拓寬Cas核酸酶的適用範圍,研究者嘗試對其加以改造以改變其對應的PAM序列。就應用上而言,CRISPR-Cas系統可用來修復致病的SNP突變,其原理是利用sgRNA-Cas複合物在SNP位點附近(5bp之內)引入DNA雙鏈斷裂(DSBs),而後藉助於修復模板通過同源重組對致病SNP加以修復。從理論上講,ClinVar數據庫中所有的致病SNP位點均可通過至少一種Cas核酸酶加以修復,且sgRNA/SNP位點的數量接近30個,這表明CRISPR-Cas系統介導的同源重組修復在致病SNP修復中有廣泛的適用性。


為改善CRISPR-Cas系統基因組操作的準確性和效率,研究者開發出單鹼基編輯系統胞嘧啶鹼基編輯器(CBEs)和腺嘌呤鹼基編輯器(ABEs),可在不引入DSBs的情況下誘導特定位點鹼基的精準改變。從理論上而言,CBEs和ABEs可修復ClinVar數據庫中80%以上的致病SNP,然而與上文提到的同源重組修復相比,單鹼基編輯的活性窗口更加侷限,對應的sgRNA/SNP位點數量也只有2.3個。不過最近prime編輯器的出現讓研究者看到了更多可能:該編輯器理論上可在基因組的任意位點引入插入、缺失或鹼基替換,但其效果還有待深入研究。


與單鹼基編輯系統相比,敲除實驗在sgRNA位點的選擇上更加靈活:基因的多數外顯子區域均可作為靶點完成功能敲除。此外,CRISPR為基礎的基因激活(CRISPRa)和抑制(CRISPRi)策略的sgRNA位點的選擇窗口一般<100bp,多位於轉錄起始位點附近。


sgRNA設計網站特徵

作者統計發現至少有30種sgRNA設計網站可用,此外還有眾多的代碼可用於sgRNA設計。作者還對應用最廣的六大網站E-CRISP、CRISPOR、GUIDES、CRISPick、RGEN Cas-Designer和CHOPCHOP進行了總結。總體來看,很多網站都有其獨特的應用目標,研究者需要根據自己的需求加以選擇和調整。在sgRNA設計網站的選擇上,作者的標準如下:


選擇標準一:研究者要提供的序列信息是否能被設計網站所識別。部分網站只接受原始的序列信息,而其他網站則可以通過轉錄本編號或基因名稱在線搜索和調取對應的序列信息。在sgRNA的選擇和評估上,部分網站如CHOPCHOP和E-CRISP優先考慮靶向多種轉錄本的sgRNA;還有網站如CRISPRick和GUIDES則會顯示sgRNA在不同外顯子上的分佈情況,這對文庫的設計和構建有很大幫助。此外,有網站允許序列信息的批量輸入,這對文庫的設計也很有幫助。

選擇標準二:網站中基因組數據、Cas核酸酶和基因組操作的多樣性。絕大多數網站都支持針對人和小鼠基因組的sgRNA設計,而其它物種的研究者在網站的選擇上則相對受限,不過仍有部分網站提供數百種基因組用於sgRNA設計,還有網站允許研究者自行提供基因組信息。對基因組編輯實驗而言,通常需要根據靶位點和臨近的PAM序列特徵在多種Cas核酸酶中加以選擇,但目前並無網站可實現不同Cas核酸酶sgRNA的比較和便捷篩選。對敲除實驗和篩選文庫而言,SpCas9能滿足大多數的需求;對CRISPRa和CRISPRi實驗的sgRNA設計而言,基因的轉錄起始位點相當關鍵;對單鹼基編輯而言,BE-Designer或是不錯的選擇,但該領域正處於飛速發展階段,相關工具的更新也非常快。

對小規模的設計而言,瞭解sgRNA位點周圍的基因組特徵相當有用。比如,CRISPOR會顯示sgRNA位點周圍的SNP信息,GUIDES則提供不同轉錄本的丰度信息,CHOPCHOP則與UCSC基因組瀏覽器關聯。此外,CRISPOR和CHOPHOP還能針對靶位點提供PCR擴增引物的設計。以上這類信息對有需求的研究者而言有事半功倍的效果。

選擇標準三:sgRNA活性和脫靶效應的評估。以大規模CRISPR篩選的數據為基礎,研究者開發出多種算法預測不同Cas核酸酶的sgRNA活性,這對sgRNA的選擇大有幫助。不過,實驗方案的差異可能會對活性評估系統的選擇產生影響。比如哺乳動物細胞中慢病毒系統和III型RNA聚合酶介導的sgRNA表達,Rule Set 2系統的效果最好;而對於體外轉錄的sgRNA,Moreno-Mateos效果上佳。此外,研究者還開發出多種算法以預測脫靶效應,不過並非所有網站都選擇系統性的算法預測脫靶效應,因此研究者需要謹慎選擇以避免遺漏潛在的脫靶位點。


根據研究目的的不同,研究者對sgRNA活性和脫靶風險的要求也會有所改變:如果以單細胞克隆為目標,研究者或許更在意脫靶風險的高低;而構建篩選文庫時,又可能更看重sgRNA活性。此外,sgRNA的設計和選擇時還要考慮遞送策略、啟動子的轉錄特徵、sgRNA的序列特徵等等,部分網站會有相應的篩選標準供研究者選擇。


此外,不同的設計網站在綜合考量sgRNA活性、脫靶風險以及其它多種篩選標準時的權重並不一致,因此,針對相同基因,不同網站的優選sgRNA往往大相徑庭,但這並無對錯之分,同時這也提醒我們,sgRNA的設計網站並不能取代實驗驗證,在條件允許的情況下,設計多條sgRNAs加以驗證是上上之選。


當然,好的sgRNA設計僅僅是前提,合理的實驗設計同樣重要,要開展CRISPR實驗,Addgene的CRISPR電子書值得一讀(https://www.addgene.org/crispr/)。


CRISPR研究中,靶位點的編輯效率評估非常重要。基因敲除和鹼基編輯實驗自有專門的工具可用,而對於通過dCas9調控基因表達的實驗,則需要通過標準的RNA檢測如實時定量RT-PCR來評估。不過需要注意的是,單純的DNA或RNA水平的分析往往會有假陽性結果產生。舉例而言,sgRNA成功的在特定基因特定外顯子中引入移碼突變,但細胞仍可能通過可變剪接剔除突變外顯子以產生功能性蛋白;CRISPRa實驗中,mRNA表達可能上調,但蛋白水平可能因翻譯和翻譯後修飾而無明顯改變等等。對基因敲除和鹼基編輯實驗而言,T7EN1酶切實驗是編輯效率評估的常規方法,但該方法對新手並不友好。此外,PCR擴增靶位點後開展Sanger測序也是常用方法,Sanger測序後的數據分析軟件有TIDE(https://tide.deskgen.com)和EditR。如果要藉助於高通量測序對編輯效率進行更系統評估,Cas-Analyzer和CRISPResso2兩種在線工具效果上佳。當然,還有其它工具可供選擇,如需要雲端運行的CRISPR-Seq,以及需要下載代碼的ampliCan、BATCH-GE和CRIS.py等。


近來,研究者還開發出一系列的工具可預測sgRNA-SpCas9複合物引入DSBs後的修復特徵,在這類工具的幫助下,某些插入缺失突變的構建便無需DNA修復模板也能實現。


CRISPR篩選的分析方法

CRISPR研究工具中有相當大的一類是用於大規模混合CRISPR篩選數據的分析。目前有多種端對端分析工具包可實現篩選反捲積、reads數標準化、目標基因篩選和註釋的整合分析。這類工具包除使用方便快捷之外,還有如下優點:內置質控分析,且分析方法標準且嚴苛。

但對分析者特別是新手而言,使用這類工具包時仍需謹慎:從原始數據的輸入到目標基因的輸出過程太過便捷,分析者往往難以瞭解其中的原理。因此,按照分析流程按部就班的解讀工具包,探究其分析標準和基本原理至關重要。大體而言,CRISPR篩選分析法的基本流程如下:

篩選反捲積:

CRISPR篩選獲得的原始數據是FASTQ格式,研究者需要從中提取sgRNA的序列信息並與文庫加以比對,以獲取樣本中每種sgRNA對應的reads數。除端對端分析工具包外,這一過程的實現還可藉助於定製腳本來實現。就篩選反捲積而言,測序數據的質量評估相當重要,一方面,研究者需要評估測序數據比對的百分比,以判斷樣本的汙染情況。另一方面,研究者還要評估技術重複樣本間的相關性以排除樣本製備等過程中可能存在的失誤。

篩選後sgRNA水平的分析:

數據質控完成後,研究者需要對不同sgRNAs對應的reads數進行分析。首先要進行的是reads數的標準化處理;之後則需要對實驗組與對照組之間sgRNAs含量的差異進行統計分析。此過程中質控依然非常必要,研究者需要通過生物學重複樣本之間的相關性分析以排除批次效應的影響。研究者還需要對陰性對照和陽性對照數據加以評估,高質量的篩選中陰性對照和陽性對照結果均應符合預期。

目標基因的篩選:

篩選分析的最後一步便是篩選註釋有顯著性改變的目標基因。除端對端分析工具包之外,目前常用的工具還有HiTSelect、screenBEAM、STARS、RIGER和DESeq2。在進行目標基因篩選時,研究者應注意不同算法的特點:許多算法都默認文庫中大多數的sgRNAs不會產生相應的表型。而在定製文庫分析中,可能大多數的sgRNAs都會產生相應的表型,因此需要對算法加以調整。

目標基因篩選時方法的選擇非常關鍵。對陰性篩選或低效sgRNA文庫而言,最小化假陽性和假陰性的方法將有助於目標基因的分析。此外,BAGEL、CERES和JACKS等算法均預置細胞存活關鍵基因及sgRNA效率的信息用於改善信噪比,這些算法還被進一步優化以滿足陰性篩選的分析需求。就工具包而言,MAGeCK在陰性篩選中獨具優勢。而複雜的CRISPR篩選如組合篩選往往需要定製化分析方能實現相應的目標。而篩選出目標基因之後,後續的通路分析及蛋白複合物分析也很重要,此時研究者需要實時更新基因的註釋信息以保障後續分析的準確性。


總體而言,雖然相關的軟件工具能有效推動CRISPR-Cas研究的開展,但審慎的思考依然不可替代。深入理解在線工具和軟件包的原理非常必要,這是選擇合適的工具,避免濫用相關軟件的前提。此外,現有的軟件工具眾多,但很多都缺乏有效的維護和改善,在不斷創新開發新工具的基礎上維護改善已有的工具顯得勢在必行。


原文鏈接:https://doi.org/10.1038/s41587-020-0490-7


分享到:


相關文章: