Wheat-SnpHub-Portal數據庫介紹及使用示例

編者按:數以百計的小麥重測序數據正在向我們奔湧而來。這些數據將可為我們推進小麥研究工作提供寶貴的信息。然而,“數據≠信息”。面對海量數據,我們需要用工具進行進行整理、抽提、過濾、分析,才能獲得需要的信息;否則海量數據依然是硬盤中“冷冰冰”的數據而已。近期,中央提出加快“新基建”,包括“加快5G網絡、數據中心等新型基礎設施建設進度”,引發各界高度關注。在小麥“後基因組學時代”,我們也將迎來海量測序數據中心的“新基建”。在小麥等物種的“大數據中心”的建設中,如何避免數據庫的“重複設計”、“重複開發”、“重複建設”?將值得我們現階段思考和探索。

我們在之前給大家推送了“拿什麼迎接你:即將到來的海量重測序數據?”。在過去的兩年中,中國農業大學農學院小麥研究中心(WGGC)的師生們經過不斷設計與修改,開發了一套適用於大規模重測序數據“再分析”的數據庫系統模型:SnpHub(開源項目主頁:http://guoweilong.github.io/SnpHub)。利用該數據庫模型,可在已有的VCF數據的基礎上,快速搭建一個高效率查詢、歸檔和快速輕量級分析的數據庫。目前,中國農業大學小麥研究中心團隊利用SnpHub,把已公開發表六套(共計千餘份)小麥及其祖先種的變異數據搭建了一個公共分析平臺門戶——Wheat-SnpHub-Portal(網址:http://wheat.cau.edu.cn/Wheat_SnpHub_Portal/ )。

<table><tbody>

數據集

倍性

測序方法

樣本數

文章

1

Hexa-/Tetra-/Diploid

WGS

63/25/5

Cheng et al.2019

2

Hexa-/Tetra-/Diploid

WEC

436/38/13

Pont et al.2019

3

Hexaploid

WEC

1026

He et al.2019

4

Hexaploid

WEC&GBS

62

Jordan et al. 2015

5

Tetraploid

WEC

64

Avni et al.2017

6

Diploid

GBS

567

Singh et al. 2019/<tbody>/<table>

此外,在孔令讓老師團隊的支持下,Wheat-SnpHub-Portal網站也將在近期上線山東農業大學在PNAS發表的168份二粒小麥的數據集(一作解讀 | PNAS: 生態選擇和染色體重排驅動野生二粒小麥同域物種形成)。

本期推送將以2019年在《Genome Biology》上發表的重測序數據集[1]為例,介紹SnpHub數據庫的基本使用功能。

1. Wheat-SnpHub-Portal網站主頁

首先打開門戶網站(http://wheat.cau.edu.cn/Wheat_SnpHub_Portal/)【該網址目前還可以在“小麥族多組學數據網站”(http://202.194.139.32)中的"Other links"頁面找到】。找到對應數據集,並點擊“Access the dataset”,進入該數據集的SnpHub實例。每次加載新“實例”時,會有約數秒~半分鐘不等的系統初始化時間;實例加載完後,各種查詢和分析就很快啦。另外,每次點擊會有系統根據運行資源自動分配一個動態的URL;不同的URL為不同的session。

一千零一技 | Wheat-SnpHub-Portal数据库介绍及使用示例

圖1. Wheat-SnpHub-Portal網站首頁

2. 打開一個SnpHub新實例,我們可以看到如下頁面(圖2)。

一千零一技 | Wheat-SnpHub-Portal数据库介绍及使用示例

圖2. Genome Biology 2019 數據集的SnpHub實例的首頁

SnpHub實例的整個頁面分為兩部分:上方(藍色框)為標籤區,可以點擊不同標籤來切換功能;下方(綠色框)則為功能區,展現當前標籤對應的各個功能。進入實例後(如圖2),首頁(即左起第一個標籤頁)顯示了當前數據集的基本信息與相關鏈接。

3. 樣本信息及數據描述頁面(SampleInfo)

SampleInfo標籤頁下,展示了當前數據集中樣本的基本信息。諸如:可用於後續查詢的“Accession name”;在圖中顯示的“Display name”等;樣本的原始數據VCF中的樣本ID(vcfID);預先定義的樣本分組及列表。此外,還有對應的參考基因組信息,染色體編號、大小;基因註釋的版本等。支持數據框查詢和數據表格翻頁。

一千零一技 | Wheat-SnpHub-Portal数据库介绍及使用示例

圖3. SampleInfo頁面使用示例

4. 變異數據表格查詢頁面(VarTable)

在VarTable標籤頁中,用戶可以對多個樣本(或樣本組)的特定區間的變異情況進行查詢。如果查詢多個樣本,可將多個樣本的Assession name可以用”,”隔開。指定預設的分組Diploid,可以輸入“#Diploid”。如果查詢所有樣本,可以輸入“#RAW”(樣本多了肯定慢,可不要太貪心哦~)。指定的基因組區間既可以是簡單的形如“chr:from-to”形式,也可以是基因名形式。確定好“樣本列表信息”和指定的區間後,點擊“Run”按鈕,對應的變異位點信息就在右邊部分顯示出來了。

說明:“0/0”和參照基因組一樣;“1/1”純合突變位點;“0/1”雜合位點;“./.”覆蓋度較低不足以判斷(有時候可能是“真”丟了,當然“假”的也很多)。

當然,查詢結果還可以數據表格的形式保存至本地(點擊兩個“Download”按鈕中的一個即可)。有什麼區別?試試就知道了。

一千零一技 | Wheat-SnpHub-Portal数据库介绍及使用示例

圖4. VarTable頁面使用示例

5. 熱圖可視化變異數據(Heatmap)

看了滿屏的“0/0”, “1/1”是在眼花怎麼辦?好吧,來給你點“顏色”看看~

在Heatmap頁面中,用戶可以通過和VarTable中類似的參數設置,查看指定樣本(組)在指定區間的變異情況。熱圖中不同顏色分別表示了無突變、純合突變、雜合突變與基因型缺失,並在圖左側標註了位點的其他信息。Heatmap提供了一種直觀的識別特定分組中單倍型,或多個分組件單倍型差異的方法。

一千零一技 | Wheat-SnpHub-Portal数据库介绍及使用示例

圖5. Heatmap頁面使用示例

6. 特定基因/區間的單倍型網絡分析(HapNet)

HapNet依據給定區間的變異信息,構建單倍型網絡(haplotype network)。通過輸入樣本(組)、區間信息等,就能繪製出該區間與樣本集的單倍型網絡圖。同時,在圖下方的表格中,還將給出圖中各個haplotype內包含的樣本。

除了數據庫中預先設定的樣本集合外,用戶可以自己設定新的樣本集合。如:

Group1{Sample1,Sample2},Group2{Sample3,Sample4}

一千零一技 | Wheat-SnpHub-Portal数据库介绍及使用示例

圖6. HapNet頁面使用示例

7. 樣本列表或樣本集合在指定區間的Phylogenetic Tree(PhyloTree)

在PhyloTree標籤頁中,用戶選擇分析類型(NJ-Tree 或MDS)、樣本(組)、區間之後,將得到對應的做圖。同時,圖像下方還將給出樣本間距離矩陣。此功能可用於研究指定區間的群體遺傳構成。

一千零一技 | Wheat-SnpHub-Portal数据库介绍及使用示例

圖7. PhyloTree頁面使用示例

8. 將變異信息顯示在地圖上(HapMap)

HapMap功能提供了一種查看單個變異位點的不同allele地理分佈情況的方法。用戶可以通過調整經、緯度範圍以及網格精度(控制圓點代表的地域範圍)來可視化不同基因型的地理分佈信息。

一千零一技 | Wheat-SnpHub-Portal数据库介绍及使用示例

圖8. HapMap頁面使用示例

9. 將變異頻率和功能顯示在基因結構上(SnpFreq)

SnpFreq標籤頁提供了“棒棒糖圖”(lollipop)類型的SNP/INDEL位點和功能註釋的可視化方案:高度表示突變頻率,不同顏色表示變異類型(錯義突變、移碼突變等);並在底部繪製了轉錄本信息,內容包括外顯子、內含子、CDS和轉錄方向等。可用於快速尋找重要突變位點,也可用於對比位點組間頻率分化情況。

一千零一技 | Wheat-SnpHub-Portal数据库介绍及使用示例

圖9. SnpFreq頁面使用示例

10. 自動幫你換上樣本變異信息的序列生成方案(SeqMaker)

SeqMaker功能是在參考序列的基礎上,通過替換為指定樣本的變異基因型重建特定樣本(組)特定區間的consensus序列,生成的序列可以直接下載為FASTA格式文件。

一千零一技 | Wheat-SnpHub-Portal数据库介绍及使用示例

圖10. SeqMaker頁面使用示例

限於篇幅,本次推送僅對SnpHub平臺的功能進行整體展示介紹。之後還將推出具體功能的參數選擇、技術細節和使用技巧。

歡迎各位專家、同行、朋友的關注和反饋!

(WANG Wenxi: [email protected];

GUO Weilong: [email protected])

附:

SnpHub主頁:http://guoweilong.github.io/SnpHub/SnpHub

使用指南:https://esctrionsit.github.io/snphub_tutorial/

Wheat SnpHubPortal網址: http://wheat.cau.edu.cn/Wheat_SnpHub_Portal/

Cite:

Wenxi Wang*, Zihao Wang*, et al.. SnpHub: an easy-to-set-up web server framework for exploring large-scale genomic variation data in the post-genomic era with applications in wheat,bioRxiv, 626705. https://doi.org/10.1101/626705

一千零一技 | Wheat-SnpHub-Portal数据库介绍及使用示例


分享到:


相關文章: