研究生物基因,是否也要懂計算機編程?為什麼?

紫碧落日月心


不一定需要。但如果懂了計算機編程會給生物基因研究提供可類比的思路和原理。因為計算機和基因學這兩者研究的客體都是信息,甚至就可以稱為數據。現在就有生物醫學信息學和生物信息學等新興學科跨越了傳統的信息學和生物學領域,並逐漸開拓新的研究方向。因此在生物基因研究方面廣泛地涉及到了計算機相關的技術,而在當今的生物信息學涉及到大量的數據挖掘工作,這方面是需要進行編程的,諸如利用R語言或其他面向數據挖掘的語言來進行大數據分析。


我們下面來詳細瞭解一下現代生物信息學與信息學的關聯。


生物信息學

是一種混合學科,它將生物的數據與信息存儲、分發和分析技術聯繫起來,以支持包括生物醫學在內的多個科學研究領域。生物信息學研究的是高通量基因數據生成實驗提供的數據,這些實驗包括基因組序列確定和基因表達模式的測量等等。數據庫項目負責整理和註釋數據,然後通過萬維網進行分發。挖掘這些數據產生新的科學發現並確定新的臨床應用。特別是在醫學領域,已經出現了生物信息學的許多重要應用。例如,它可用於識別基因序列與疾病之間的相關性,從氨基酸序列預測蛋白質結構,幫助設計新藥以及根據患者的DNA序列為患者量身定製治療方法(藥物基因組學)等等。

上圖:這張的計算機圖像顯示了炭疽桿菌某蛋白質中七個單元的各種結構關係,並展示了與蛋白質結合的藥物(以黃色顯示)的相互作用,以阻斷所謂的致死因子單位。給定分子的單個結構,生物信息學在使科學家能夠預測藥物分子在蛋白質中結合的位點方面起著重要作用。


生物信息學涉及到數據挖掘,數據挖掘可能需要涉及到編程。

生物信息學的經典數據包括基因的DNA序列或完整的基因組。蛋白質的氨基酸序列;蛋白質、核酸和蛋白質-核酸複合物的三維結構數據等。其他數據流包括:

  • 轉錄組學、即從DNA合成RNA的模式;

  • 蛋白質組學,蛋白質在細胞中的分佈;

  • 相互作用組學,蛋白質-蛋白質和蛋白質-核酸相互作用的模式;


  • 和代謝組學,小分子通過細胞中活躍的生化途徑轉化的性質和運輸模式。

在上述各種情況下,都希望獲得針對特定細胞類型的全面、準確的數據,並確定數據中的變化模式。例如,數據可能會根據細胞類型,數據收集的時間(在細胞週期或晝夜,季節或年度變化期間),發育階段和各種外部條件而波動。而此外,元基因組學和元蛋白質組學將這些測量範圍擴展到對環境樣本(例如一桶海水或土壤樣本)中生物的全面描述。

上圖:生物信息學涉及到的方方面面。


生物信息學一直受到生物學數據生成過程的巨大推動。基因組測序方法可能顯示出最戲劇性的效果。1999年,核酸序列檔案庫共包含35億個核苷酸,比單個人類基因組的長度略長 ; 十年後,該庫包含超過2830億個核苷酸,約95個人類基因組的長度。


有多種用於數據挖掘的編程語言,主要包括以下幾種:

  • R語言

  • Julia語言

  • Python語言

上圖:2014年數據挖掘的主要編程語言佔比情況。


數據存儲與檢索

在生物信息學中,數據庫用於存儲和組織數據。這些實體中有許多從科學論文和基因組計劃中收集DNA和RNA序列。許多數據庫掌握在國際組織手中,例如:

由英國歐洲分子生物學實驗室核苷酸序列數據庫(EMBL-Bank),日本DNA數據庫(DDBJ)和美國國家生物技術信息中心(NCBI)的GenBank組成的諮詢委員會負責監督國際核苷酸序列數據庫合作組織(INSDC)。為了確保可自由獲得序列數據,科學期刊要求新的核苷酸序列存放在公眾可訪問的數據庫中,作為發表文章的條件。(類似條件適用於核酸和蛋白質結構。)還存在基因組瀏覽器、數據庫,這些數據庫將有關特定物種的所有可用基因組和分子信息彙集在一起。

生物大分子結構的主要數據庫是全球蛋白質數據庫(wwPDB),由美國結構生物信息學研究合作機構(RCSB),英國歐洲生物信息學研究所的歐洲蛋白質數據庫(PDBe)和日本大阪大學的蛋白質數據庫聯合支持。

從數據檔案中檢索信息使用標準工具通過關鍵字識別數據項;例如,可以在Google中輸入“土豚肌紅蛋白”並檢索該分子的氨基酸序列。


數據挖掘編程可能涉及到從這些數據庫中導入數據。


生物信息學的目標

開發用於測量序列相似性的有效算法是生物信息學的重要目標。基於動態編程的Needleman-Wunsch算法可確保找到序列對的最佳比對。該算法從本質上將一個大問題(完整序列)劃分為一系列較小的問題(短序列段),並使用較小問題的解決方案來構造該較大問題的解決方案。在矩陣中對序列的相似性評分,並且該算法允許檢測序列比對中的缺口。

儘管Needleman-Wunsch算法是有效的,但它對於探測大型序列數據庫仍然太慢。因此,人們已經非常關注尋找可以處理檔案中大量數據的快速信息檢索算法。一個例子是BLAST程序(基本局部比對搜索工具)。BLAST的開發採用稱為位置特異性迭代(或PSI-)BLAST的技術,它利用相關序列中的保守性模式,並結合BLAST的高速性和極高的敏感性來尋找相關序列。

生物信息學的另一個目標是通過預測來擴展實驗數據。計算生物學的基本目標是根據氨基酸序列預測蛋白質結構。蛋白質的自發摺疊表明這應該是可能的。通過兩年一次的結構預測關鍵評估(CASP)程序來測量預測蛋白質摺疊方法的進展,該程序涉及結構預測方法的盲測。

給定可配合的單個結構,生物信息學也可用於預測蛋白質之間的相互作用。這被稱為“停靠問題”。蛋白質-蛋白質複合物在表面形狀和極性上顯示出良好的互補性,並且在很大程度上由於弱相互作用而穩定,例如疏水面的埋入、氫鍵和範德華力等等。

計算機程序可以模擬這些相互作用,以預測結合伴侶之間的最佳空間關係。設計一種與靶蛋白具有高親和力的抗體就是可能具有重要治療用途的挑戰課題之一。

上圖:蛋白質的停靠問題。


早年,許多生物信息學研究的重點相對狹窄,專注於設計用於分析特定類型數據的算法,例如基因序列或蛋白質結構。然而,現在,生物信息學的目標是綜合的,旨在弄清楚如何將不同類型的數據組合用於理解自然現象,包括生物和疾病。因此內容越來越豐富。


所以對於一些前沿研究項目,生物學或者遺傳學研究者可能需要自己編程開發研究工具。所以學習編程技能也是有幫助的。



生物學方面的應用

DNA或脫氧核糖核酸為每種生物提供了一套完整的描述。每個生物體中的每個細胞都包含完整的DNA副本。基因是編碼並存儲在DNA中的核苷酸序列集。每個基因編碼某種蛋白質。DNA被轉錄成mRNA,即信使核糖核酸,然後被翻譯成蛋白質。蛋白質由氨基酸序列定義。單個氨基酸由稱為密碼子的三個核苷酸編碼。如下圖所示,有64個可能的密碼子和只有20個氨基酸。由於只有20個氨基酸,因此多個密碼子編碼相同的氨基酸。這被稱為遺傳密碼的簡併性。由於遺傳密碼的這種簡併性,某些SNP不會導致蛋白質序列發生變化。這稱為同義突變。如果SNP導致蛋白質序列改變,這被稱為非同義改變。

在人類基因組中發現單個核苷酸的變化可能就像“在大海撈針”,但是,生物信息學資源可以做到這一點。

上圖:此密碼子表顯示了遺傳密碼如何轉換為組成蛋白質的氨基酸序列。


一個單核苷酸多態性,或SNP,是人類的DNA序列中可能發生的微小遺傳變化或變異。SNP代表人類中發現的最常見的DNA變異類型。這些變異可用於研究和跟蹤家庭的繼承。儘管整個人群中超過99%的人類DNA序列是相同的,但是DNA序列(例如SNP)的微小變化可能會對人類對疾病,環境因素和藥物的反應產生重大影響。有趣的是,SNP在進化上是穩定的。這意味著它們代代相傳的變化不大。話雖如此,SNP在生物醫學研究中具有極大的興趣和價值。SNP數據正在影響開發藥品或醫療診斷程序。

上圖:在這裡您可以看到一個單核苷酸多態性,即SNP,它導致序列1和序列2之間的遺傳變化很小。

人類DNA序列的變異會影響人類發展疾病和對藥物的反應。儘管SNP不會引起疾病,但它們可以幫助確定某人患上特定疾病的可能性。


計算生物學,即分析和解釋數據的實際過程,結合了生物信息學,被用於稱為數據挖掘的技術。隨著人類基因組計劃在2003年的完成,大量的基因組數據可用於數據庫挖掘,即通過識別DNA中相似或不相似的序列來生成關於某些目的基因或蛋白質的功能或結構假設的過程。

國際HapMap項目旨在通過HapMap向研究人員提供信息,HapMap是人類常見遺傳變異的目錄,也提供對變異的描述以及它們在我們DNA中的位置。該目錄提供了研究人員將遺傳變異與特定疾病風險聯繫起來所需的信息。



總結

生物學、遺傳學與計算機科學的關係越來越緊密了,但關於編程方面的技能需求目前主要可能是在數據挖掘方面,因為生物學和基因學是實實在在的大數據。


小宇堂


這是科學家回答的問題,本人表示沒這個能力,按照自己的認知來回答的話,計算機編程一定是需要的[祈禱]


分享到:


相關文章: