Bioconductor基因芯片數據分析之KEGG分析

Bioconductor基因芯片數據分析之KEGG分析

上一期我們一起學習了基因芯片數據分析中的GO分析,這一期我們學習KEGG分析。

通路(Pathway)分析包括通路註釋和通路富集分析。通路富集分析的基本思路、統計模型等基本和GO富集分析如出一轍。

常用的公共通路數據庫主要有KEGG ( Kyoto encyclopedia of genes and genomes)、BioCarta和GenMAPP (Gene map annotator and pathway profiler),最為著名的是KEGG庫中的代謝通路,KEGG代謝通路註釋幾乎成為了通路註釋的代名詞。

很多事實已經證明,KEGG的數據是非常可靠的,但是我們要注意,KEGG有兩個比較大的缺點:第一就是註釋源問題,它只提到由相關專家收集整理而成,沒有參考文獻等來源信息;第二就是授權問題,由於它授權過於嚴格,Biocondocutor已經無法繼續支持它,轉而開始使用更加開源的Reactome數據庫。

在R語言中KEGG分析主要是由Bioconductor的GeneAnswers包實現的。

接著上一期的代碼,我們進行今天的分析。

Bioconductor基因芯片數據分析之GO分析

#安裝並加載所需R包。

BiocManager::install("GeneAnswers")
library(GeneAnswers)

#選取dif中的三列信息構成新的矩陣,第一列必須是EntrezID

humanGeneInput 

## 獲得humanGeneInput中基因的表達值

humanExpr 

# 前兩個數據做列合併,第一列必須是EntrezID

humanExpr 

# 去除NA數據

humanGeneInput 

# KEGG通路的超幾何檢驗

y Bioconductor基因芯片數據分析之KEGG分析 

getEnrichmentInfo(y)[1:6,]
Bioconductor基因芯片數據分析之KEGG分析

我們利用GeneAnswers包實現了KEGG通路的註釋、統計和可視化的功能。

同時GeneAnswers具有強大的功能,除了KEGG,還可以支持GO、REACTOME和CABIO等多個數據庫,可以通過設定參數categoryType分別指定註釋類型。

從最終的結果可以看到每個顯著性富集的通路含有6列信息(不包括行號):

  • 第1列"genes in Category"表示有多少個基因屬於這個通路;
  • 第2列"percent in the observed List"表示在觀察到的基因列表中的比例;
  • 第3列"percent in the genome"是在基因組中的比例;
  • 第4列"fold of overrepresents"是基因過表達的倍數;
  • 第5列"OddsRatio"是超幾何分佈中的比值比;
  • 第6列"P.value"是超幾何檢驗的P值。


分享到:


相關文章: