还在显微镜里大海捞针?机器学习助力高效准确寻找全新蛋白质结晶

还在显微镜里大海捞针?机器学习助力高效准确寻找全新蛋白质结晶

「将门×行业龙头企业创新行」

将门作为一家以技术创新为切入口的早期创新发掘机构,重磅启动「将门×行业龙头企业创新行」计划,邀请各地技术小伙伴们一同走入来自零售、交通、医疗、金融、地产等行业龙头企业,深入理解AI落地场景,发掘更多AI价值的应用空间。

7月20日(周五)的首站,我“门”将来到全球医疗健康领域的领导者—飞利浦。我们也很荣幸邀请到飞利浦人工智能实验室总监周子捷博士,届时他将到场和大家分享“飞利浦人工智能驱动的医疗解决方案”,介绍飞利浦在“人工智能应用于医疗健康”领域的研究方向和创新成果。戳我来报名

来源:researchblog.duke.edu 编译:Kathy

蛋白质晶体通常没有宝石那般迷人的光泽和魅力,但无论颜值如何每一个晶体对科学家都弥足珍贵。

还在显微镜里大海捞针?机器学习助力高效准确寻找全新蛋白质结晶

并非所有的蛋白质晶体都像这些在太空中结晶的晶体一样带有彩虹色。但是不管它们是美是丑,科学家们都视若珍宝

杜克大学化学和物理学教授Patrick Charbonneau和一群来自世界各地的科学家,与谷歌大脑的研究人员合作,使用最先进的机器学习算法来发现这些珍贵的晶体。他们的工作可以使研究人员更容易地绘制出蛋白质结构图,从而加速药物的发现。

Charbonneau说:“每当你错过一个蛋白质晶体,因为它们非常罕见,你就有可能错过了一个重要的生物医学发现。”

了解蛋白质的结构是了解其功能以及设计出适合其特定形状的药物的关键。但是传统的确定这些结构的方法,称为X射线结晶学,要求先对蛋白质进行结晶。然而结晶蛋白质不是困难,是非常困难。与构成盐和糖等普通晶体的简单原子和分子不同,蛋白质是异常庞大的分子,每个分子可以包含数万个原子,它们很难排列成构成晶体基础的有序阵列。让蛋白质这样的物体自己组装成晶体像极了一个变魔法的过程。

即使经过数十年的实践,科学家也不得不部分依靠反复试验试错来获得蛋白质晶体。分离出一种蛋白质后,他们将它与数百种不同类型的液体溶液混合,希望找到正确的配方,使蛋白质结晶。然后,科学家在显微镜下观察每种混合物的液滴,希望能够发现正在生长的最小的晶芽。

“你必须亲自去显微镜下寻找发现晶体,那里有一个,这里没有,那里有一颗,而通常的结果都是没有,没有,没有。“Charbonneau说,“不仅雇人做这个工作花费很高,而且人是容易失失误的。人会感到疲劳,会变得粗心,而且会影响他们其他的工作。”

还在显微镜里大海捞针?机器学习助力高效准确寻找全新蛋白质结晶

机器学习软件搜索点和边(左),以识别图像中溶液液滴的结晶。它还可以识别非结晶固体(中间)和非固体(右边)。

Charbonneau认为,深度学习软件现在能够识别照片中人的面孔,即使面孔是模糊的或从侧面抓拍的,那么深度学习软件也许能够识别溶液中构成晶体的点和边。

基于这样的想法,来自学术界和工业界的科学家聚集在一起,将五十万张蛋白质结晶实验图像收集到一个名为MARCO的数据库中。根据人类的评估,这些数据具体说明了溶液中的哪一种物质导致了结晶。

还在显微镜里大海捞针?机器学习助力高效准确寻找全新蛋白质结晶

该小组随后与Google Brain的Vincent Vanhoucke领导的小组合作,应用最新的人工智能帮助识别图像中的晶体。

还在显微镜里大海捞针?机器学习助力高效准确寻找全新蛋白质结晶

用于晶体识别的深度卷积神经网络(Convolutional neural network, CNN),通过不同层的卷积抽取出图像中的特征,并在最后的输出中得到不同种类晶体的输出结果,以区分晶体和沉淀,干净的还是含有杂质的。网络的输出为299*299的图像,通过七层的结构最终得到了输出结果。

在数据子集上对深度学习软件进行“训练”后,将深度学习软件应用到整个数据库中。人工智能准确识别晶体的几率大约95 %,据估计,人类发现晶体的正确率只有85 %。

还在显微镜里大海捞针?机器学习助力高效准确寻找全新蛋白质结晶

研究人员对于取得的结果十分满意,他们成功的将卷积网络对于物体的识别能力迁移到了晶体这样基于几何特征的分类任务中去。

还在显微镜里大海捞针?机器学习助力高效准确寻找全新蛋白质结晶

上图为训练结果,可以看到实现了接近94%的测试准确率。

其他研究小组已经被要求使用人工智能模型和MARCO数据集来训练他们自己的机器学习算法,以便在蛋白质结晶实验中识别晶体。Charbonneau 表示这些进展应该会让研究人员把更多的时间放在生物医学发现上,而不是在观察样品找晶体上消耗时间。

研究人员们在未来计划利用这些数据来了解蛋白质是如何自己组装成晶体的,这样就可以更少的依赖偶然性来实现蛋白质结晶的“魔法”,从而真正了解其内在的物理化学过程和动力学机制。

-The End-

将门是一家以技术创新为切入口的早期创新发掘机构,旗下设有将门创新服务、将门技术社群以及将门投资基金。

将门创新服务专注于使创新的技术落地于真正的应用场景,激活和实现全新的商业价值,服务于行业领先企业和技术创新型创业公司。

将门技术社群专注于帮助技术创新型的创业公司提供来自产、学、研、创领域的核心技术专家的技术分享和学习内容,使创新成为持续的核心竞争力。

将门投资基金专注于投资通过技术创新激活商业场景,实现商业价值的初创企业,关注技术领域包括机器智能、物联网、自然人机交互、企业计算。在两年的时间里,将门投资基金已经投资了包括量化派、码隆科技、禾赛科技、宽拓科技、杉数科技、迪英加科技等数十家具有高成长潜力的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”: [email protected]

还在显微镜里大海捞针?机器学习助力高效准确寻找全新蛋白质结晶

点击右上角,把文章朋友圈

将门创投

让创新获得认可!

[email protected]


分享到:


相關文章: