反轉!行業專家:谷歌的AlphaFold並沒有那麼牛叉

AlphaGo之後,谷歌DeepMind團隊新近推出的AlphaFold又火了一把。

反轉!行業專家:谷歌的AlphaFold並沒有那麼牛叉

DeepMind是谷歌旗下專注於AI前沿技術的團隊

AlphaFold橫空出世

近日,兩年一度的國際蛋白質結構預測挑戰競賽(CASP)在墨西哥島城坎昆舉辦。在這次大賽上,AlphaFold一鳴驚人。

在與來自世界各地數百支參賽隊伍的“較量”中,DeepMind團隊以AlphaFold領銜的“A7D”參賽隊在43個參賽蛋白中拿到25個單項最佳模型,並獲得累計總分第一名,將總分第二名(該團隊拿到3個單項最佳)遠遠拋諸身後。

反轉!行業專家:谷歌的AlphaFold並沒有那麼牛叉

DeepMind對一種蛋白的結構預測

在結果揭曉的當天,谷歌同時發佈了一篇供媒體選用的新聞稿件,標題醒目:《AlphaFold:用AI進行科學探索》(英文為:AlphaFold: Using AI for scientific discovery)。此舉意在向世界宣佈:谷歌正在將其AI技術的觸手,伸向基礎科研領域。

Fold這個英文單詞就有“摺疊”的意思,谷歌給用於蛋白質結構預測的AI取名“AlphaFold”,用意不言而喻——劍指以AI技術破解蛋白質摺疊這一科學難題。

你可能以為,此次AlphaFold初試牛刀就奪走第一、搶佔C位,不過是“AlphaGo大勝人類圍棋冠軍李世石”在“蛋白質結構預測”領域的一場重演。但小編經過尋訪瞭解到,將神經網絡模型、深度強化學習等AI技術用於未知蛋白質結構解析,DeepMind團隊既非首創、亦非個例。在此次大賽中排名前五的參賽團隊中,都不同程度地使用了深度學習算法。

那麼,AlphaFold緣何能脫穎而出?

在探索這個問題的答案之前,我們先用1分鐘簡單瞭解一下蛋白質結構預測。

小知識:蛋白質摺疊與結構預測

眾所周知蛋白質的基本單位為氨基酸,而蛋白質的一級結構指的就是其氨基酸序列。通常,蛋白質會由所含氨基酸殘基的親水性、疏水性、帶正電、帶負電等特性通過殘基間的相互作用而摺疊成為立體的三級結構(即3D結構),這就是蛋白質摺疊。

蛋白質的立體結構關係重大,無論是要研究蛋白質的功能,還是設計針對癌症等重大疾病的靶向藥物,都離不開對蛋白質結構的瞭解,因此,蛋白質摺疊也被稱為“第二遺傳密碼”。也因此,破解蛋白質結構,就成了生物信息學乃至整個生物學領域的重要命題,被稱為生物學的“聖盃”。

問題是,蛋白質可在短時間中從一級結構摺疊至立體結構,人們卻無法在短時間中從氨基酸序列計算出蛋白質結構,甚至無法得到準確的三維結構。

上世紀60年代末,美國科學家克里斯蒂安·安芬森(Christian B. Anfinsen)提出“蛋白質的高級空間結構由蛋白質的氨基酸序列決定”後(他也因此於1972年獲得諾貝爾化學獎),人們開始尋找一種能夠預測蛋白質結構的算法:從蛋白質的氨基酸序列出發,利用計算機預測出其複雜的空間結構、甚至其由結構決定的功能。

AlphaFold並沒領先多少

說回到AlphaFold。如前文所述,DeepMind團隊(的新聞稿)並沒有披露,此次挑戰賽的多支團隊都使用了深度學習技術。並且,其他加入了深度學習的結構預測模型也很好。

巴黎笛卡爾大學前沿生物學博士郭昊天指出,今年參賽的隊伍中,很多都使用了CNN等深度學習方法。比如拿到了第二名的密歇根大學的Yang Zhang團隊,就在其開發的I-TASSER結構預測模型(已成為近10年來最流行的結構計算模型之一)的基礎上,將卷積神經網絡(CNN)與之整合、優化,提高了預測準確率。

那麼,各個模型的效果如何呢?在大賽中,Yang Zhang團隊的預測方法與AlphaFold相比,準確率的差別其實相當微弱——Zhang團隊的模型對參賽蛋白結構的預測和真實結構相符的概率為85.1%,只比AlphaFold的87.9%差不到3%。

考慮到DeepMind背後強大的計算力,這個邊際效應其實非常小。

曾從事蛋白結構信息學及基於蛋白組學的系統生物學研究的國家納米科學中心研究員方巧君也告訴小編,

從與待測蛋白質真實結構的相符程度來看,排名前幾名的結果的差別並沒有那麼大。

也就是說,AlphaFold之於其他團隊的真實優勢,並非如“25個單項最佳”與“3個單項最佳”這種數字上對比的反差如此強烈。

而且,不得不指出的是,AlphaFold拿到了43個參賽蛋白中的25個單項最佳,另一面是:有18個參賽蛋白的最佳模型不是AlphaFold取得的。

可能只是硬件的“勝利”

其實,在AlphaFold面世之前,早就有一些學者嘗試使用神經網絡和強化學習來完成模型預測中的“模擬退火”等過程。甚至在北京大學生物化學與分子生物學教授昌增益看來,蛋白質預測本質上“一直就是一種人工智能應用,好像不能算是一件新鮮事”。

在美國某高校“用機器學習做生物信息”的在讀博士Z表示,深度學習在生物信息領域裡“絕對不是什麼新鮮事,現在很多paper都用上了深度學習”。

也就是說,將AI技術融入蛋白質結構預測模型,在生物信息學領域由來已久。

那麼,為何初試牛刀的AlphaFold能夠在CASP大賽中脫穎而出呢?

“硬件的勝利。”郭昊天給出了他的答案。

“谷歌有錢、有TPU。”郭昊天說,DeepMind可以動用幾千片TPU(張量處理單元,谷歌專為機器學習而定製的芯片,編注),這是Zhang團隊所難以比擬的。他覺得,如果Zhang團隊使用DeepMind的資源,重新訓練模型,得到的結果或許比AlphaFold更好也未可知。

郭昊天略帶調侃地說,本次蛋白質結構預測挑戰賽,確切地說應該是DeepMind的“土豪金”AlphaFold“大勝沒錢的研究機構的其他深度學習算法”

反轉!行業專家:谷歌的AlphaFold並沒有那麼牛叉

谷歌今年發佈了TPU3.0

AlphaFold存在硬傷難言完美

而AlphaFold的模型,其表現也難言完美。這體現在兩個方面:

  1. 從比賽結果來看,即便是那些AlphaFold拿到最佳的蛋白預測中,AlphaFold的模型也並未達到極高的準確率。
  2. AlphaFold對某些蛋白的預測甚至沒有達到平均水平。相對第2-5名,AlphaFold存在一個硬傷:預測準確率不穩定。

對於第1點,如果模型仍然是僅僅大致勾勒出蛋白質結構,這對於很多場合是遠遠不夠的。從需求上說,人們需要依靠一種可靠性高的蛋白質結構預測手段。而所謂可靠性高,就意味著必須得精準預測才行。如果模型的預測分辨率不夠高,其實際作用就會大打折扣。

對於第2點,AlphaFold在43個參賽蛋白中,有25個拿到最佳模型,技壓群雄;但是AlphaFold預測不好的模型也很多,並且是真的差。說起來,這算是AlphaFold的一大硬傷。要實現蛋白結構預測這個“聖盃”,最重要的是算法的輸出結果準確性很穩定。如果準確性忽高忽低,那就很糟糕——怎麼判斷哪次準還是不準?

人們無法相信“薛定諤的預測”

這其實體現了AlphaFold模型仍有很大的可完善空間。郭昊天認為,現在的模型基本都是混合了深度學習算法和基於人類知識的傳統方法的“綜合體”,該多一些深度學習還是多一些傳統方法,這需要找一個平衡點。可以肯定的是,對於一般團隊的算力而言,DeepMind開發的AlphaFold應肯定不是那個平衡點;不太肯定但有可能存在的是,對於DeepMind而言,他們所採用的方法也未必在那個平衡點上。

因此而來的諸如AlphaFold“對於什麼樣的蛋白分子更有效?為什麼更有效?”等問題也值得人們去詳細探究。

AI用於蛋白質結構預測還有問題

把深度學習引入蛋白質結構預測是大勢所趨。不過,AI用於蛋白質結構預測,也還有許多不盡人意之處。

首先,生物信息學領域的特點,讓AI技術難以盡情施展。

生信領域數據複雜度太高、可訓練的樣本太小,這特別不利於設計模型結構和調參。具體到蛋白質結構預測,目前蛋白質結構數據庫(PDB)所有物種的蛋白加一起(含大量衍生同種型蛋白質)才近15萬個可搜索的解構,這種訓練樣本顯然不合AI的胃口。

其次,預測蛋白質結構的難度跟AI下棋絕不是一個數量級的。

AlphaFold雖然在本次大賽中大放異彩,但是我們也看到它距離解決摺疊問題、距離實際運用還有距離。比賽中的蛋白質只到100個左右氨基酸,而實際中待解的蛋白分子都比這大得多。這也就意味著,AI要想破解預測蛋白質結構的難題,難度還很大。

反轉!行業專家:谷歌的AlphaFold並沒有那麼牛叉

AI

結語

深度學習雖然是個神器,但跟任何機器學習一樣,深度學習必須依賴足夠數據。目前來看,AlphaFold樣本數量少得可憐。此是其一;其二,諸如AlphaFold這類算法模型,在缺乏足夠的訓練數據、很難一下子提高預測準確率的問題背景下,必須從預測的思路和方法方面入手,改進模型。

我們當然瞭解並期待AI挖掘出更多意想不到的潛力,但是,深度學習並不是所有難題的答案;有時候,方法思路比深度學習更重要。


分享到:


相關文章: