06.21 人類到底有多少個基因?學術界帶來最新結論

人類基因組中基因數量的最早嘗試之一是在紐約科爾德斯普林港的一個酒吧和純粹的猜測。

那是在2000,當一個人類基因組序列草案仍在進行中時,遺傳學家正在為人類擁有多少基因做賭注,賭注從幾萬到幾十萬不等。近20年後,科學家們掌握了真實的數據,仍然無法在數量上達成一致。他們說,知識差距阻礙了發現疾病相關突變的努力。

人類到底有多少個基因?學術界帶來最新結論

最新的試圖填補這個缺口的嘗試使用了來自數百個人體組織樣本的數據,並於5月29日發佈在BioXIV預印本服務器上。它包括近5000個基因,這些基因以前沒有被發現過,其中有將近1200個攜帶蛋白質製造的指令。超過21000個蛋白質編碼基因的總數量與先前的估計相比大幅增加,這一數字約為20000。

人類到底有多少個基因?學術界帶來最新結論

但是許多遺傳學家還不相信所有新提出的基因都能經受住仔細的審查。他們的批評強調了識別新基因的困難,甚至定義了基因是什麼。

“人們已經為此努力了20年,我們仍然沒有答案,”馬里蘭州巴爾的摩約翰霍普金斯大學的計算生物學家Steven Salzberg說,他的團隊製作了最新的統計數據。

最終答案?

2000,隨著基因組學界對人類基因的發現問題的討論,Ewan Birney發起了GeEnEWEP競賽。Birney,現在是歐洲生物信息學研究所(EBI)在英國欣克斯頓的合作主任,在一次年度遺傳學會議上首次在酒吧裡打賭,比賽最終吸引了1000多個參賽者和3000美元的大獎。基因數量在312000以上到26000以下,平均約為40000。這些天,估計的跨度已經縮小,現在大多數在19000到22000之間,但仍然存在分歧。

人類到底有多少個基因?學術界帶來最新結論

基因計數可以根據所分析的數據、使用的工具和剔除假陽性的標準而變化。最新計數使用了更大的數據集和不同的計算方法,以及以前的努力,以及更廣泛的定義基因的標準。

Salzberg的團隊使用了來自基因型組織表達(GTEX)項目的數據,該序列從數百具屍體中提取了超過30種不同組織的RNA。RNA是DNA和蛋白質之間的中介物。研究人員想要鑑定編碼蛋白質的基因,而那些不在細胞中起重要作用的蛋白質。所以他們組裝了GTEX的9000億個微小RNA片段並與人類基因組對齊。

僅僅因為一段DNA被表達為RNA,但並不一定意味著它是一個基因。因此,團隊試圖用各種標準過濾噪聲。例如,他們將其結果與其他物種的基因組進行比較,認為遠距離相關生物共享的序列可能由於進化而被保存,因為它們有著有用的目的,因此很可能是基因。

該團隊留下了21306個蛋白質編碼基因和21856個非編碼基因,它們遠遠超過了兩個應用最廣泛的人類基因數據庫。由EBI所維持的基因編碼基因集包括19901個蛋白編碼基因和15779個非編碼基因。美國國家生物技術信息中心(NCBI)運行的數據庫RefSeq列出了20203個蛋白質編碼基因和17871個非編碼基因。

馬里蘭州貝塞斯達NCBI的基因組研究者Kim Pruitt和RefSeq的前負責人說,差異可能部分是由於Salzberg團隊分析的數據量。還有另一個主要區別。基因編碼和RefSeq都依賴手工治療,一個人審查每個基因的證據並做出最終的決定。薩爾茨伯格的小組僅僅依靠計算機程序來篩選數據。

“如果人們喜歡我們的基因列表,那麼也許幾年後,我們將成為人類基因的仲裁者,”Salzberg說。

人類到底有多少個基因?學術界帶來最新結論

何為基因的定義標準?

但許多科學家說,他們需要更多的證據來確信這個列表是準確的。協調 GENCODE人工註釋的EBI計算生物學家Adam Frankish說,他和他的團隊已經掃描了Salzberg團隊鑑定的大約100個蛋白質編碼基因。據他們評估,其中 只有一個似乎是真正的蛋白質編碼基因。

Pruitt的團隊研究了Salzberg組的新蛋白編碼基因中的十幾個,但沒有找到符合RefSeq標準的任何基因。

一些與基因組重疊的區域似乎屬於逆轉錄病毒,它侵入了我們祖先的基因組;其他區域屬於其他重複的延伸,很少被翻譯成蛋白質。

但Salzberg說,一些重複序列可以被認為是基因。一個例子是Erv3-1,它出現在RefSeq並編碼在結直腸癌中過表達的蛋白質。Salzberg還承認,他的團隊名單上的新基因將

但Salzberg說,一些重複序列可以被認為是基因。一個例子是Erv3-1,它出現在RefSeq並編碼在結直腸癌中過表達的蛋白質。Salzberg還承認,他的團隊名單上的新基因將需要他的團隊和其他人的驗證。

最令人困惑的是基因定義的變化和不精確。生物學家過去認為基因是編碼蛋白質的序列,但後來發現一些非編碼RNA分子在細胞中有重要作用。這一基因判定的標準爭議也解釋了Salzberg計數和其他計數之間的一些差異。

重要意義

瑞士Salzberg日內瓦大學的遺傳學家Emmanouil Dermitzakis說,GoTeX項目的合作者很可能至少有一些基因被證明是有效的。考慮到GTEX數據集的龐大規模,該團隊對蛋白質編碼基因的計數是前一個增加了5%。

準確地記錄所有人類基因對於揭示基因和疾病之間的聯繫是非常重要的。Salzberg說,即使它們含有致病基因突變,也常常忽略未計數的基因。Frankish說,匆忙向主列表添加基因也會帶來風險。一個原來不正確的基因可以轉移遺傳學家的注意力,使之遠離真正的問題。

不過,從數據庫到數據庫的基因數量的不一致對研究者來說是個問題,Pruitt說。“人們想要一個答案,”她補充說,“但是生物是複雜的。”


分享到:


相關文章: