Bioconductor中提供各種算法和程序用於處理各類生物數據,今天我們就其中的一個基礎包來向大家介紹Bioconductor中R包的使用。
Biostrings包內存效率高的字符串容器、字符串匹配算法和其他實用程序,主要用於對生物分子序列進行定義、處理和分析等,它有一個基礎類BString,下面有三個繼承類:DNAString、RNAString和AAString,分別對應DNA、RNA和氨基酸序列。
下面首先安裝Biostrings包,並安裝人類基因組序列數據包(版本號H19) 和人類基因組表達譜芯片HG-U133A的探針數據包,然後通過實例來掌握Biostrings的用法。
#安裝加載所需的包:
BiocManager::install(c("Biostrings", "BSgenome.Hsapiens.UCSC.hg19", "hgu133a2probe")) library(Biostrings)
#加載人類基因組序列數據包。
library(BSgenome.Hsapiens.UCSC.hg19)
#加載人類基因組表達譜芯片HG-U133A的探針數據包。
library(hgu133a2probe)
1、基本操作:互補,反向,反向互補,翻譯,轉錄和逆轉錄。
#用DNAString生成-個dna對象。
dna#查看這個對象。
dna#將對象dna由DNAString類型轉為"RNAString"類型,直接查看內容。
rna#查看rna內容
rna# 再轉為"DNАЅtrіng"類型, RNА序列中的U全部替換為T
DNAString(rna)#查看rna的三連密碼子
codons(rna)# rna翻譯,產生新對象AA ("AAString" 類型)。
AA#查看AA的內容。
AA# dna的互補,又得到一個"DNAString"類型的對象。
complement(dna)# dna的反向互補序列,還是"DNAString"類型的對象。
reverseComplement(dna)# dna的反向序列,還是"DNAString"類型的對象。
reverse(dna)2、統計人類基因組數據中的鹼基頻率
#將第22號染色體全序列對有N的地方遮蓋,以方便後續步驟時提高工作效率。
chr22NoN#統計第22號染色體全序列中的所有基礎鹼基[ATCG]的出現次數。
alphabetFrequency(chr22NoN, baseOnly =TRUE)#再統計染色體中所有鹼基的出現次數。
alphabetFrequency(chr22NoN)#看看Hsapiens$chr22是否只有基礎鹼基[ATCG] (字母)。
hasOnlyBaseLetters(chr22NoN)#顯示Hsapiens$chr22中鹼基(字母)種類(不含冗餘)。
uniqueLetters(chr22NoN)#計算Hsapiens$chr22中C或G的數量,注意不是CG兩連子。
GC_content#查看C或G的數量。
GC_content#計算Hsapiens$chr22中C或G所佔的含量(比例)。
GC_pencentage#查看C或G的含量。
GC_pencentage