上一期我們一起學習瞭如何選取差異表達基因,接下來,我們利用註釋包對選取出來的差異基因進行註釋,為後面的數據分析打下堅實的基礎。
我們對Affymetrix芯片產生的差異表達基因的註釋方法為:下載對應具體平臺的註釋包,進行本地註釋。
我們這一期的代碼內容是在上一期的內容的基礎上運行的
#加載註釋工具包
library(annotate)
#獲得基因芯片註釋包名稱
affydb#查看基因芯片註釋包名稱
affydb#下載註釋包hgu95av2.db
BiocManager::install("hgu95av2")#加載註釋包hgu95av2.db,必須設定character.only
library(affydb, character.only = TRUE)#根據每個探針組的ID獲取對應的基因Gene Symbol,並作為一一個新的列,加到數據框dif最後
dif$symbols#根據每個探針組的ID獲取對應的基因Entrez ID,同樣加到數據框dif最後
dif$EntrezID#顯示結果的前六行
head(dif)注意:如果今天的代碼在Rstudio中運行不過去,就需要在R中運行,主要是在下載註釋包hgu95av2.db這一步出現問題,也可能是因為我的Rstudio本身有問題。
註釋實質上就是一一個ID映射的過程,也就是把芯片探針組的ID映射到基因國際標準名稱(Gene symbol)和Entrez ID兩種ID上。
Gene symbol是由人類基因命名委員會(The HUGO Gene Nomenclature Committee, HGNC)為每個人類基因提供的唯一命名,一般是大寫拉丁字母縮寫形式,後面可加數字,非常便於人工閱讀。Gene symbol的最主要特點就是唯一性和普遍性。大多數科研工作者看到這個名字就能直接聯繫到這個基因的簡單功能等信息。
Entrez ID實際上是NCBI數據庫中的GI (GenInfoIdentifier)。NCBI對於每一條提交的序列,根據其存入NCBI數據庫時的先後順序賦給一個整數,這就是GI。這裡增加一列GI的目的,就是為了下一步通過GI映射到基因本體論(GO),然後做GO的富集分析。