還在顯微鏡里大海撈針?機器學習助力高效準確尋找全新蛋白質結晶

还在显微镜里大海捞针?机器学习助力高效准确寻找全新蛋白质结晶

「將門×行業龍頭企業創新行」

將門作為一家以技術創新為切入口的早期創新發掘機構,重磅啟動「將門×行業龍頭企業創新行」計劃,邀請各地技術小夥伴們一同走入來自零售、交通、醫療、金融、地產等行業龍頭企業,深入理解AI落地場景,發掘更多AI價值的應用空間。

7月20日(週五)的首站,我“門”將來到全球醫療健康領域的領導者—飛利浦。我們也很榮幸邀請到飛利浦人工智能實驗室總監周子捷博士,屆時他將到場和大家分享“飛利浦人工智能驅動的醫療解決方案”,介紹飛利浦在“人工智能應用於醫療健康”領域的研究方向和創新成果。戳我來報名

來源:researchblog.duke.edu 編譯:Kathy

蛋白質晶體通常沒有寶石那般迷人的光澤和魅力,但無論顏值如何每一個晶體對科學家都彌足珍貴。

还在显微镜里大海捞针?机器学习助力高效准确寻找全新蛋白质结晶

並非所有的蛋白質晶體都像這些在太空中結晶的晶體一樣帶有彩虹色。但是不管它們是美是醜,科學家們都視若珍寶

杜克大學化學和物理學教授Patrick Charbonneau和一群來自世界各地的科學家,與谷歌大腦的研究人員合作,使用最先進的機器學習算法來發現這些珍貴的晶體。他們的工作可以使研究人員更容易地繪製出蛋白質結構圖,從而加速藥物的發現。

Charbonneau說:“每當你錯過一個蛋白質晶體,因為它們非常罕見,你就有可能錯過了一個重要的生物醫學發現。”

瞭解蛋白質的結構是瞭解其功能以及設計出適合其特定形狀的藥物的關鍵。但是傳統的確定這些結構的方法,稱為X射線結晶學,要求先對蛋白質進行結晶。然而結晶蛋白質不是困難,是非常困難。與構成鹽和糖等普通晶體的簡單原子和分子不同,蛋白質是異常龐大的分子,每個分子可以包含數萬個原子,它們很難排列成構成晶體基礎的有序陣列。讓蛋白質這樣的物體自己組裝成晶體像極了一個變魔法的過程。

即使經過數十年的實踐,科學家也不得不部分依靠反覆試驗試錯來獲得蛋白質晶體。分離出一種蛋白質後,他們將它與數百種不同類型的液體溶液混合,希望找到正確的配方,使蛋白質結晶。然後,科學家在顯微鏡下觀察每種混合物的液滴,希望能夠發現正在生長的最小的晶芽。

“你必須親自去顯微鏡下尋找發現晶體,那裡有一個,這裡沒有,那裡有一顆,而通常的結果都是沒有,沒有,沒有。“Charbonneau說,“不僅僱人做這個工作花費很高,而且人是容易失失誤的。人會感到疲勞,會變得粗心,而且會影響他們其他的工作。”

还在显微镜里大海捞针?机器学习助力高效准确寻找全新蛋白质结晶

機器學習軟件搜索點和邊(左),以識別圖像中溶液液滴的結晶。它還可以識別非結晶固體(中間)和非固體(右邊)。

Charbonneau認為,深度學習軟件現在能夠識別照片中人的面孔,即使面孔是模糊的或從側面抓拍的,那麼深度學習軟件也許能夠識別溶液中構成晶體的點和邊。

基於這樣的想法,來自學術界和工業界的科學家聚集在一起,將五十萬張蛋白質結晶實驗圖像收集到一個名為MARCO的數據庫中。根據人類的評估,這些數據具體說明了溶液中的哪一種物質導致了結晶。

还在显微镜里大海捞针?机器学习助力高效准确寻找全新蛋白质结晶

該小組隨後與Google Brain的Vincent Vanhoucke領導的小組合作,應用最新的人工智能幫助識別圖像中的晶體。

还在显微镜里大海捞针?机器学习助力高效准确寻找全新蛋白质结晶

用於晶體識別的深度卷積神經網絡(Convolutional neural network, CNN),通過不同層的卷積抽取出圖像中的特徵,並在最後的輸出中得到不同種類晶體的輸出結果,以區分晶體和沉澱,乾淨的還是含有雜質的。網絡的輸出為299*299的圖像,通過七層的結構最終得到了輸出結果。

在數據子集上對深度學習軟件進行“訓練”後,將深度學習軟件應用到整個數據庫中。人工智能準確識別晶體的幾率大約95 %,據估計,人類發現晶體的正確率只有85 %。

还在显微镜里大海捞针?机器学习助力高效准确寻找全新蛋白质结晶

研究人員對於取得的結果十分滿意,他們成功的將卷積網絡對於物體的識別能力遷移到了晶體這樣基於幾何特徵的分類任務中去。

还在显微镜里大海捞针?机器学习助力高效准确寻找全新蛋白质结晶

上圖為訓練結果,可以看到實現了接近94%的測試準確率。

其他研究小組已經被要求使用人工智能模型和MARCO數據集來訓練他們自己的機器學習算法,以便在蛋白質結晶實驗中識別晶體。Charbonneau 表示這些進展應該會讓研究人員把更多的時間放在生物醫學發現上,而不是在觀察樣品找晶體上消耗時間。

研究人員們在未來計劃利用這些數據來了解蛋白質是如何自己組裝成晶體的,這樣就可以更少的依賴偶然性來實現蛋白質結晶的“魔法”,從而真正瞭解其內在的物理化學過程和動力學機制。

-The End-

將門是一家以技術創新為切入口的早期創新發掘機構,旗下設有將門創新服務、將門技術社群以及將門投資基金。

將門創新服務專注於使創新的技術落地於真正的應用場景,激活和實現全新的商業價值,服務於行業領先企業和技術創新型創業公司。

將門技術社群專注於幫助技術創新型的創業公司提供來自產、學、研、創領域的核心技術專家的技術分享和學習內容,使創新成為持續的核心競爭力。

將門投資基金專注於投資通過技術創新激活商業場景,實現商業價值的初創企業,關注技術領域包括機器智能、物聯網、自然人機交互、企業計算。在兩年的時間裡,將門投資基金已經投資了包括量化派、碼隆科技、禾賽科技、寬拓科技、杉數科技、迪英加科技等數十傢俱有高成長潛力的技術型創業公司。

如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投後服務,歡迎發送或者推薦項目給我“門”: [email protected]

还在显微镜里大海捞针?机器学习助力高效准确寻找全新蛋白质结晶

點擊右上角,把文章朋友圈

將門創投

讓創新獲得認可!

[email protected]


分享到:


相關文章: