基於1000多萬個化學反應,加速合成人類所需的化合物

人工智能帶來的革命仍在繼續:從沃森(Waston)機器人不到10分鐘診斷出白血病,到AlphaGo擊敗世界排名第一的圍棋選手;從戰場到太空,隨處都可見其身影。其實,AI也早已滲透進科研領域,成為科學家進行學術研究的新手段。

現在,科學家們已經構建出了化學界的“Alphago”:科學家們在《Nature》上發文證明,AI能夠以前所未有的速率進行逆向合成分析。

基於1000多萬個化學反應,加速合成人類所需的化合物

在化學研究中,由簡單的原料開始合成一個複雜化合物是非常困難的。而逆向合成則是設計化合物生產的標準方法,即化學家們通過逆向思維,從想要製造的化合物分子開始,然後分析可以通過哪些容易得到的試劑和反應序列來合成它,這種方法被廣泛用於製造藥物和其他產品。

逆合成分析法於20世紀60年代由哈佛大學教授E. J. Corey提出。Corey教授因發現這一方法,獲得了1990年的諾貝爾化學獎。

過去,科學家們一直使用計算機輔助有機合成的方式,來完成逆合成分析過程。儘管這種方法可以提高合成效率,然而傳統的計算機輔助方式合成速度仍然較慢,且提供的分子質量參差不齊。人類還是需要手動搜索化學反應數據庫,來找到製造分子的最佳方法。

基於1000多萬個化學反應,加速合成人類所需的化合物

圖丨Marwin Segler

而 Segler團隊開發的新AI工具則使這一過程大大縮短。在未來,人類發現新藥或者其他產品的速度將有望達到全新水平。

化學反應也如同下棋

其實,化合物的產生和下棋也有異曲同工之妙。相關的化合物可以被分解成基本組成成分,這些成分便是“棋子”,而計算機程序為這些“棋子”提供不同的路徑,然後再在實驗室中將它們合成。

當然,理論上來看這似乎是很容易的事情,但在實踐中卻遇到了困難。Segler說:“化學領域比圍棋界有更多的可能性,問題也要複雜得多。”

基於1000多萬個化學反應,加速合成人類所需的化合物

圖丨和兩種傳統合成方法相比(紅色和綠色),使用新型人工智能算法(藍色)在較短時限內可以完成更多分子的合成路線預測。

而在最新的研究中,新的AI工具通過深度學習神經網絡來學習所有已知的單步有機化學反應——大約1240萬個。這使它能夠預測在任何單一步驟中可以使用的化學反應。AI工具重複應用這些神經網絡來規劃多步驟合成,解構所需的分子,直到最終得到可用的試劑。這項工作得到了德國研究基金會的資助。

基於1000多萬個化學反應,加速合成人類所需的化合物

圖 | 逆合成分析法示意圖

Segler說:“逆向合成是有機化學中的終極學科,一名化學家需要數年的學習才能掌握它——這像下棋一樣,除了要學習專業知識外,還需要敏銳的直覺和極強創造力。我們所展示出的是:計算機本身就可以從現有的文獻中學習種種規則及這些規則的應用。”

目前,許多來自不同學科的研究人員正在著手研究將深度神經網絡與蒙特卡洛搜索樹相結合。蒙特卡洛搜索樹是一種用來評估遊戲中移動情況的方法。每走一步,計算機會模擬無數種可能發生的情況,比如如何使象棋遊戲結束,計算機會選擇最佳方式去走。

基於1000多萬個化學反應,加速合成人類所需的化合物

圖丨Mike Preuss

類似地,機器也可以使用這種深度神經網絡,來尋找化學合成中的最佳方式。信息系統專家兼該項研究作者Mike Preuss則用一句話總結了這次的化學界“Alphago”的成功秘訣:“深度神經網絡用於預測哪些分子會參加反應。蒙特卡洛搜索樹來預測反應的可能性”。

具體而言,該團隊開發的AI算法擁有一個包含1200萬個已知反應的數據庫,其深層的神經網絡程序可以從1200萬個已知反應中不斷學習,而不是在硬性規則中進行編程。而數據庫提供的數據越多,算法可以探索的化學途徑就越多,預測合成路線的準確度也就越高。

這個算法還運用了類似於AlphaGo的蒙特卡羅樹搜索,可將目標分解成數千個可能的節點,在每一步化學反應後評估最有可能成功的下一步,並進一步探索這個“分支”。

基於1000多萬個化學反應,加速合成人類所需的化合物

圖丨AI算法探索不同的化學路徑並選擇成功率最高的

正如Segler說,“人們認為,像教計算機下國際象棋一樣,將大量規則輸入計算機,就能夠實現想要的效果。但這並不奏效——化學是非常複雜的,它不能僅用簡單的規則去理解。事實告訴我們,有新反應的出版物數量每十年就會翻一番。化學家和程序員都無法跟上這種變化。我們需要AI的幫助。”

藥物合成領域的里程碑

那麼,這次的化學界“Alphago”究竟本事如何呢?

在一項雙盲AB測試中,Muenster 的研究人員發現,AI生成的合成路線絲毫不遜於經過測試生成的的合成路線。

Segler和他的團隊為了測試新AI工具所產生的途徑是否能被有經驗的化學家分辨出來,向來自中國和德國的兩個研究所的45位有機化學家展示了9個分子的兩種潛在合成路線:一種由AI合成的途徑,另一種途徑是由人類設計的。結果,有機化學家們並不能區分出來。

Segler說,“我們希望化學家能通過我們的方法,使用更少的資源,進行更少的實驗,生產出能夠提高我們的生活水平的物質。”

事實上,自20世紀60年代以來,研究人員一直在試圖利用計算機能力規劃有機化學合成,但收效甚微。那個時候,有機化學實驗室看上去還像是鍊金術的天堂:成排的試劑瓶,老舊的木製試管,以及俯在案邊忙碌的化學家。

經過50年的快速發展,實驗室場景在改變,不過,科研人員工作的本質沒變,有機化學家仍需要不斷描繪所需要的反應順序,然後試著遵循這一順序用手煞費苦心地進行操作。

基於1000多萬個化學反應,加速合成人類所需的化合物

而隨著人工智能技術的發展,人們開始試圖將機器和人工智能整合至科研進程中,通過創造能自動合成有機分子的設備,將化學家們解放出來。

儘管這次的成果並不是第一次在藥物合成中運用AI工具,但是,化學家們仍將這一發展視為藥物合成領域的一個里程碑,這不僅是因為它可以加速藥物發現過程,也是因為它是目前使用AI來標記潛在反應路線的最有效程序之一。

2018年3月,韓國Ulsan國立科學技術研究院的化學家Grzybowski報告說,他已經在實驗室測試了新AI工具算法建議的8條化學反應途徑,並且都成功了。

值得一提的是,Segler團隊的新AI工具的工作原理有別於Grzybowski及其團隊此前發明的加速化學合成的Chematica(它需要人將有機化學規則輸入到該系統中供程序使用),因為它只從數據中學習,不需要人類輸入規則。

瑞典計算化學家Ola Engkvist對這項工作印象深刻。他說:“提高合成化學的成功率,對藥物研發項目的速度和效率以及降低成本都有巨大的好處。”

基於1000多萬個化學反應,加速合成人類所需的化合物

Segler也透露,這個AI工具已經引起了幾家製藥公司的興趣,但他並不認為有機化學家會因此失業。“AI將成為化學家的助手,”他打了一個比方,“GPS導航設備可能會使紙質地圖變得多餘,但不是使汽車駕駛員變得多餘。”

“在過去的60年裡,科學家們一直試圖通過人工編碼的方式,將合成規則指定給計算機,”Waller博士在論文中寫道:“和傳統方法不同的是,我們使用了具備規劃能力、符號象徵能力及自動化學習能力的強大算法,這對於計算機能否在化學合成中發揮輔助作用至關重要。而這一技術也為滿足人類在農業、醫療及材料科學等領域的需求奠定了堅實的基礎。


分享到:


相關文章: