應用Biostrings處理生物信息數據——基礎篇

應用Biostrings處理生物信息數據——基礎篇

Bioconductor中提供各種算法和程序用於處理各類生物數據,今天我們就其中的一個基礎包來向大家介紹Bioconductor中R包的使用。

Biostrings包內存效率高的字符串容器、字符串匹配算法和其他實用程序,主要用於對生物分子序列進行定義、處理和分析等,它有一個基礎類BString,下面有三個繼承類:DNAString、RNAString和AAString,分別對應DNA、RNA和氨基酸序列。

下面首先安裝Biostrings包,並安裝人類基因組序列數據包(版本號H19) 和人類基因組表達譜芯片HG-U133A的探針數據包,然後通過實例來掌握Biostrings的用法。

#安裝加載所需的包:

BiocManager::install(c("Biostrings",
 "BSgenome.Hsapiens.UCSC.hg19",
 "hgu133a2probe"))
library(Biostrings)

#加載人類基因組序列數據包。

library(BSgenome.Hsapiens.UCSC.hg19)

#加載人類基因組表達譜芯片HG-U133A的探針數據包。

library(hgu133a2probe)

1、基本操作:互補,反向,反向互補,翻譯,轉錄和逆轉錄。

#用DNAString生成-個dna對象。

dna

#查看這個對象。

dna
應用Biostrings處理生物信息數據——基礎篇

#將對象dna由DNAString類型轉為"RNAString"類型,直接查看內容。

rna

#查看rna內容

rna
應用Biostrings處理生物信息數據——基礎篇

# 再轉為"DNАЅtrіng"類型, RNА序列中的U全部替換為T

DNAString(rna)
應用Biostrings處理生物信息數據——基礎篇

#查看rna的三連密碼子

codons(rna)
應用Biostrings處理生物信息數據——基礎篇

# rna翻譯,產生新對象AA ("AAString" 類型)。

AA 

#查看AA的內容。

AA
應用Biostrings處理生物信息數據——基礎篇

# dna的互補,又得到一個"DNAString"類型的對象。

complement(dna)
應用Biostrings處理生物信息數據——基礎篇

# dna的反向互補序列,還是"DNAString"類型的對象。

reverseComplement(dna)
應用Biostrings處理生物信息數據——基礎篇

# dna的反向序列,還是"DNAString"類型的對象。

reverse(dna)
應用Biostrings處理生物信息數據——基礎篇

2、統計人類基因組數據中的鹼基頻率

#將第22號染色體全序列對有N的地方遮蓋,以方便後續步驟時提高工作效率。

chr22NoN 應用Biostrings處理生物信息數據——基礎篇 

#統計第22號染色體全序列中的所有基礎鹼基[ATCG]的出現次數。

alphabetFrequency(chr22NoN, baseOnly =TRUE)
應用Biostrings處理生物信息數據——基礎篇

#再統計染色體中所有鹼基的出現次數。

alphabetFrequency(chr22NoN)
應用Biostrings處理生物信息數據——基礎篇

#看看Hsapiens$chr22是否只有基礎鹼基[ATCG] (字母)。

hasOnlyBaseLetters(chr22NoN)
應用Biostrings處理生物信息數據——基礎篇

#顯示Hsapiens$chr22中鹼基(字母)種類(不含冗餘)。

uniqueLetters(chr22NoN)
應用Biostrings處理生物信息數據——基礎篇

#計算Hsapiens$chr22中C或G的數量,注意不是CG兩連子。

GC_content 

#查看C或G的數量。

GC_content
應用Biostrings處理生物信息數據——基礎篇

#計算Hsapiens$chr22中C或G所佔的含量(比例)。

GC_pencentage 

#查看C或G的含量。

GC_pencentage
應用Biostrings處理生物信息數據——基礎篇


分享到:


相關文章: