03.05 GEO數據庫挖掘教程(4)一體化分析代碼(帶視頻+R代碼分享)

眾所周知,GEO裡面大部分是表達譜數據,而表達譜的數據挖掘涉及眾多的分析方法和繁瑣的分析步驟,這裡給大家做了一個大致的流程圖,以便大家有一個整體而全面的認知。簡而言之,GEO的數據分析就分為兩大步驟:(1)從

原始數據基因表達值,這裡要經過繁瑣的數據前處理過程;(2)從表達值功能分析(差異基因/聚類/功能富集等)。下面我們就按部就班地進行講解。

GEO數據庫挖掘教程(4)一體化分析代碼(帶視頻+R代碼分享)


Step1:從原始數據到表達值

這一步驟是相對比較簡單、比較固定的流程,但是其在數據分析過程中的地位至~關~重~要!因為後續所有的高級分析都是建立在表達值的基礎上,如果這裡出了問題,那麼後續所有分析都會產生極大的偏差。在GEO中,所有的data series除了上傳原始數據外,還會有一個已經處理好的表達值矩陣,這個是GEO強制要求submitter在上傳過程中必須上傳的,就存儲在series matrix file中。我們在分析數據的時候,可以直接使用這個series matrix file作為表達值進行後續的分析。

Step2:從表達值到功能分析

有了表達值以後,我們就可以“暢所欲為”了。常見的後續分析有:差異表達分析、層次聚類,主成分分析等,主要根據我們的分析目的來定。現在,我們來對他們進行逐個講解。

a. 差異表達分析

這個分析相對較好理解,其實就是兩個不同分組之間基因表達值有差異的基因。一般通過兩個指標去進行篩選:Fold change(變化倍數,簡稱FC),以及P value(P值)。常用的FC閾值為2,P value的閾值為0.05或者0.01。

GEO數據庫挖掘教程(4)一體化分析代碼(帶視頻+R代碼分享)


b. 層次聚類分析

這個也是表達譜分析中的常用套路,其理論基礎是:基因之間存在共表達,在表達譜上具有相似性的基因或樣本可能具有潛在的相關性。在聚類分析中,基因被看作是一個向量,通過元素與元素之間的距離,將不同的元素歸類。通過層次聚類,我們把表達譜相近似的基因或者樣本富集在一起,然後再對特定的基因進行功能分析,或者對臨床樣本進行表型的挖掘。

GEO數據庫挖掘教程(4)一體化分析代碼(帶視頻+R代碼分享)


c. 主成分分析

Principle Component Analysis, PCA。屬於降維分析的一種,將樣本從輸入空間通過線性或非線性映射到一個低維空間,減少了後續步驟處理的計算量,當降至三維以下時還可用於可視化技術,從而發揮人在低維空間感知上的優點,發現數據集的空間分佈、聚類性質等結構特徵。PCA對於分析樣本的相關性具有自己獨到的優勢。

GEO數據庫挖掘教程(4)一體化分析代碼(帶視頻+R代碼分享)

為了方便大家對GEO數據進行深入的分析挖掘,我們開發了一款高效GEO Terminator。可能有點誇張,但是絕對實用。我們要做的就是到GEO找到你要分析的數據,不知道怎麼找的,請參見我們的上一篇(GEO數據庫挖掘(2)--快速鎖定目標數據),輸入GSExxx,以及檢測平臺GPLxxx,自定義一下要分析的樣本表型,然後全選(Ctrl+A),運行(Ctrl+Enter)即可。整個代碼運行可能需要幾分鐘到十幾分鐘的時間,根據你的數據大小和網速快慢而定,最終結果是這樣的:

GEO數據庫挖掘教程(4)一體化分析代碼(帶視頻+R代碼分享)


GEO數據庫挖掘教程(4)一體化分析代碼(帶視頻+R代碼分享)


只需輸入幾個編號,所有分析全自動運行,包括:(1)質控箱線圖,(2)差異表達基因,(3)層次聚類熱圖,(4)差異表達火山圖,(5)主成分分析散點圖,囊括表達譜數據挖掘的所有基本分析。



分享到:


相關文章: