基因組數據可視化,計算機自動繪製基因圖像,R語言編寫

現在我們的DNA測序技術已經飛速發展,我們也分析出了越來越多的物種的基因組。

在這之中,對於全基因組分析,特異圖 是一種新穎而重要的工具。特異圖可以用直觀和有效的方式來映射和可視化全基因組信息,例如基因密度,DNA甲基化分佈,基因組一致性等。

基因組數據可視化,計算機自動繪製基因圖像,R語言編寫


但是,大多數用來基因組測定的軟件程序僅適用於少數幾種模型,例如人,鼠標和蒼蠅,或具有有限的應用場景。越來越多的非模型物種需要測序,因此也需要比較完備的工具來測定更多生物的基因組信息。於是開發人員也做出了很多努力來開發基因測序軟件,其中RIdeogram便是很厲害的基因組測序工具,據科學技術報告,RIdeogram不光可以測序,還能一鍵可視化基因信息,自動畫出SVG圖像,節省了使用者繪圖的時間。

可能很多人不知道SVG是啥,這裡簡單介紹下。SVG是可伸縮矢量圖形,它是在編程中一種用於描述二維圖形的語言。SVG圖形在可擴展標記語言(XML)文本文件中定義,所以人們可以輕鬆地使用任何文本編輯器,如記事本,或繪圖軟件來創建和編輯SVG圖形,因此SVG的編輯並不難。

基因組數據可視化,計算機自動繪製基因圖像,R語言編寫


另外,RIdeogram工具也可用於顯示兩個或三個基因組之間的同義比較。此外,RIdeogram可以可視化雙重基因組比較,例如人與小鼠之間的基因組同構性。與常染色體相比,人和小鼠X染色體之間的同義塊幾乎佔據了每個X染色體的全部,這暗示了在真核哺乳動物譜系中X染色體的高度保守的同義關係。於是,使用RIdeogram工具可以很容易發現這種關係。

那麼RLdeogrm是用什麼編程語言寫成的呢?

RIdeogram是用R語言編寫的。R語言是廣泛用於統計計算,數據分析和圖形的最流行的編程語言之一。不過,R圖形包不是基於任何現有的圖形系統構建的,因此使用起來不太方便。

基因組數據可視化,計算機自動繪製基因圖像,R語言編寫


開發者使用R環境讀取自定義輸入文件,並在座標系中計算圖形元素的位置。接著R語言將所有元素信息按照XML格式寫入文本文件,該文件用於通過SVG語言定義圖形。RIdeogram的基因繪圖功能也比較完善,可以滿足大部分圖形版本的需求,例如JPG,PNG,PDF等等各種版本的圖形都可以繪出來,滿足了不同使用習慣的人的需求。

基因組數據可視化,計算機自動繪製基因圖像,R語言編寫


使用RIdeogram可以瞭解基因如何在整個基因組中分佈。例如,計算出蛋白質編碼基因的數量,可以將其視為連續數據和500個隨機選擇的非編碼RNA的位置,包括核糖體RNA(rRNA),轉移RNA(tRNA)和microRNA(miRNA) ),都可以將其視為離散數據。

隨後RIdeogram會將基因密度信息作為重疊特徵映射到圖像上,並在圖像旁邊添加跟蹤標籤,並分別代表rRNA,tRNA和miRNA。可以說這是一種非常方便的工具了。

基因組數據可視化,計算機自動繪製基因圖像,R語言編寫


總的來講,隨著生物學和計算機科學的發展,醫學界對生物基因組的測序需求越來越大,而測序的難度卻非常大,因此特別需要計算機提供越來越高級的工具幫助基因測序。於是乎很多技術便應運而生,其中RIdeogram便是時代的產物,它可以進行基因測序並自動繪製圖像,節省了更多的時間成本。可以說,科學改變世界,帶來了更美好的前景。

基因組數據可視化,計算機自動繪製基因圖像,R語言編寫


分享到:


相關文章: