TCGA、ICGC、GTEx 數據庫都是啥?

我們在進行數據庫介紹,尤其是腫瘤相關數據庫的時候,經常會提到說這個使用了

TCGA/GTEx 數據庫的數據,那麼這兩個數據庫到底是什麼呢?為什麼會有用這兩個數據庫呢?另外呢,由於最近ICGC提的也比較多,所以這裡也就做一下簡單的介紹。

需要明確的是,這幾個數據庫屬於原始數據儲存數據庫。我們在這裡得到的都是相對原始的數據庫,需要具備一定的數據分析能力。


TCGA

TCGA, 全稱為The Cancer Genome Atlas(癌症基因組圖譜)。通過其名稱我們就知道這個數據庫主要做的就是腫瘤相關的數據庫。為什麼經常看到別人用這個數據庫呢?還是因為這個數據庫收集的信息全呀。


TCGA、ICGC、GTEx 數據庫都是啥?


首先,對於研究病種而言,這個數據庫包括了33個種腫瘤的數據。具體包括的癌種可以看後面的鏈接。

其次,數據庫檢測的數據類型多。對於同一個癌種,我們可以獲得這個癌種的: 表達數據、miRNA表達數據、甲基化數據、突變數據和拷貝數數據。如果我們使用GEO數據庫檢索某一個癌種,同樣也可以得到這些相關的數據。但是TCGA數據庫珍貴的地方是,這個數據都是出自同一個人的。這樣的話,我們就可以研究不同組學之間的交叉反應了。比如突變對於表達的影響、甲基化和表達的關係等等。。。


TCGA、ICGC、GTEx 數據庫都是啥?


另外,TCGA除了包括了不同測序的數據,同時對於每一個納入的患者還包括了其臨床的信息。更難能可貴的是,臨床信息當中還包括了預後隨訪的信息。這個我們就可以來分析以上的測序數據集和臨床信息之間的關係了,比如分析基因表達和預後的關係等等。。。


TCGA、ICGC、GTEx 數據庫都是啥?

PS: 其實GEO有的數據集也有臨床信息以及預後信息,但是這個得需要我們慢慢的去尋找了。


ICGC

ICGC (https://dcc.icgc.org/), 全稱International Cancer Genome Consortium(國際癌症基因組聯盟)。這個數據庫和TCGA的關係,就是ICGC數據庫包括了TCGA的數據。另外呢,ICGC也納入了其他別的地區所做的隊列的測序數據。所以如果使用ICGC進行檢索的話,我們可以得到更多的數據。


TCGA、ICGC、GTEx 數據庫都是啥?


ICGC是一個儲存原始數據的地方,我們只需要檢索相對應的關鍵詞就可以得到具體的信息了。我們可以檢索疾病、基因名稱或者突變信息都可以。例如我們檢索 gastric cancer,我們就可以得到這個聯盟納入的數據集。


TCGA、ICGC、GTEx 數據庫都是啥?


我們點擊進去就可以看到每個數據集詳細的信息。按照下圖所示,我們點開的這個就只有突變的數據。


TCGA、ICGC、GTEx 數據庫都是啥?


GTEx

GTEx,全稱Genotype-Tissue Expression。這個數據庫和TCGA和ICGC不同的是。TCGA和ICGC更多的還是腫瘤相關的數據,而GTEx收集的是正常人身上的組織來進行的測序,所以GTEx數據庫包括的就只是

正常人的數據

這個數據集的用處呢,一方面是可以研究正常人不同組織之間的基因表達的區別。另外的一個呢,就是和TCGA聯合使用。由於TCGA重點收集的還是癌症組織的數據,對於其正常的數據收集的相對來說較少,由於正常樣本少所以對於差異表達的結果可能就不是很準確。這個時候如果我們把GTEx的數據納入進來。這樣分析的結果就會準確一些了。



數據下載站點推薦

以上就是三個數據庫內容的基本介紹,如果想要想在相關的數據的話,各個數據庫都提供了自己的下載方式。另外,很多別的機構也都提供了這個數據的下載鏈接,這個還是很推薦使用UCSC XENA (https://xenabrowser.net/hub/)。這裡彙總和目前常用的很多公共數據庫的原始數據,甚至包括今年剛發表的PCAWG的數據。


TCGA、ICGC、GTEx 數據庫都是啥?


分享到:


相關文章: