JMC | 賽諾菲研究基於AI的分子從頭設計

引言

AI為化合物的屬性預測,藥物設計以及分子逆合成提供了有效的解決方案,來自賽諾菲的Christoph Grebner在JMC專刊Artificial Intelligence in Drug Discovery中報道了基於AI的從頭分子設計研究結果。


JMC | 賽諾菲研究基於AI的分子從頭設計


自動化分子從頭設計已經被研究了大約20年,儘管許多工具已經被建立起來,許多成功的案例也已經被知曉。分子自動化從頭設計仍然沒有被普及開來。其中的部分原因可能是由於設計的分子很難被合成出來。本文介紹了基於強化學習來進行化學空間的探索的方案;同時,也對相關的評分方法進行了研究;最後,在對典型藥物研發項目的回顧性研究中,作者研究瞭如何生成項目進展所需的相關分子,以及如何定製方案以滿足分子合成和優化的相關需求。


生成性神經網絡被訓練以用於從頭設計具有指定屬性的化合物。訓練過程主要包括兩個步驟。首先,使用大型化學數據庫來生成模型,該模型將會學習如何生成正確化學結構。在第二步中,使用RL訓練這些模型,以便可以將生成的化學結構放到指定的化學特性空間中。


(1)生成模型,使用RNN(循環神經網絡)來生成新型化學分子結構,這樣的訓練是基於一個非常龐大的分子數據庫。RNN會學習SMILES的語法規則-SMILE是一種描述化學分子的簡單線性語言。RL(增強學習)被用於指導RNN如何生成具有指定屬性的可用分子。首先訓練出的神經網絡模型被稱之為“prior”。

JMC | 賽諾菲研究基於AI的分子從頭設計

圖 1. 強化學習路線圖

來源:JMC


(2)化學空間,三個不同的數目龐大的化學數據庫被用於訓練prior。其中ChEMBL(version 24, ~1.45 million molecules),Sanofi(~3.37 million molecules)代表的生物活性分子,而Enamine(~5.36 million molecules)代表的是虛擬可及性分子。使用SMILES來展示這些分子,互變異構體暫時不被考慮在內。同時為了探索一些化學亞結構的遺失會對模型有什麼影響,訓練集移除了一些特定亞結構,形成了幾個新的化學亞空間用於訓練。A: No amides ;B: No amidines ;C: No guanidines;D: No benzene;E: No five-membered rings。

JMC | 賽諾菲研究基於AI的分子從頭設計

圖 2.不同訓練數據集的組成

來源:JMC


(3)打分函數,Prior 可以被用於生成化學結構,但是對於先導化合物的合成以及優化而言,需要去生成一些在特定範圍內的化學分子。作者通過各種打分(包括化學相似性和各種基於QSAR的生物活性模型)將新分子的生成導向了所需的化學屬性空間。被使用的打分函數:a:2D相似性(ECFP6 分子指紋);b:3D相似性(ROCS-3D);c: 2D-QSAR模型(基於Cubist regression trees);d:2D-QSAR-model (基於GraphConvolutions);e:組合打分函數

JMC | 賽諾菲研究基於AI的分子從頭設計

圖 3.不同類型打分函數可視化

來源:JMC


總結

AI在目前的生活中扮演著重要的角色,在藥物發現中AI已經被應用了數年,併為相關的任務(如屬性預測,分子設計和化學逆合成)提供了有潛力的建議。這些活動將加快會對藥物相關分子的搜索,並有助於縮短工業界和學術界的藥物研發週期。本文研究了人工智能分子從頭設計的幾個實際應用。為此,作者使用強化學習方法進行分子從頭設計,評估了不同化學空間作為輸入訓練集,以及不同評分函數和組合對最後結果的影響。


這些結果表明,在研究中,可以設計一套定製的方案來助力藥物研發相關工作。如果是想要生成相似化合物,在強化學習中使用2D方法進行打分可能有用,但顯然會產生更為保守的結果。另一方面,如果目標是識別新的先導化合物,則單獨或組合使用3D-shape和QSAR模型來對RL進行評分,可以獲得更好的效果。因此,將更復雜的方法(例如3D-shape或QSAR模型)集成到打分中,可以對化學空間進行比較無偏的採樣,從而提供新穎的思路。


參考文獻

Grebner, C., et al., Automated De Novo Design in Medicinal Chemistry: Which Types of Chemistry Does a Generative Neural Network Learn? Journal of Medicinal Chemistry, 2020.


分享到:


相關文章: