COVID-19数据集汇集AI专家,生命科学研究员进行治疗

  BIO-IT社区已经建立了COVID-19开放研究数据集,以支持有关寻找该病毒治疗方法的研究。(GETTY图像)

COVID-19数据集汇集AI专家,生命科学研究员进行治疗

COVID-19

  AI Trends编辑总监Allison Proffitt

  所有的Bio-IT团体都渴望为SARS-CoV-2及其所致疾病COVID-19的治疗,诊断和疫苗计划做出贡献。公司正在提供咨询服务,计算资源,用于临床试验的工具等等。但是最大的捐赠可能是庞大的数据量,供研究人员挖掘答案。

  3月16日,艾伦AI研究所(AI2),陈·扎克伯格计划(CZI),乔治敦大学安全与新兴技术中心(CSET),微软和国家医学图书馆(NLM)发布了COVID-19开放研究数据集(CORD-19)。

  该数据集可通过艾伦人工智能研究所的语义学者平台访问,其中包含有关COVID-19,SARS-CoV-2和冠状病毒组的学术文献。

  语义学者总经理道格·雷蒙德(Doug Raymond)对AI Trends表示,语义学者是一种免费的,由AI驱动的工具,可用于浏览科学文献。成立于2015年的Semantic Sc​​holar收集了数百万篇经过同行评审的期刊文章,预印本服务器出版物,相关的GitHub存储库,博客文章,临床试验数据,演示文稿,视频等。语义学者收录的论文超过1.8亿篇。

  Doug Raymond,语义学者

  该CORD-19数据集目前包括47,000篇学术文章,包括来自考研36000篇文章的全文,使用的搜索查询包括COVID-19,冠状病毒,SARS,MERS和其他相关方面发现。根据相同的查询,包括来自bioRxiv和medRxiv的预印本。雷蒙德说,该数据集包括一般性冠状病毒的信息,论文可追溯到1970年代。

  “我们与Elsevier,世界卫生组织以及许多其他机构合作,以获得文章的全文,然后我们以JSON格式创建了此数据的结构化表示,使您可以查看所有内容。元数据,全文,”他说。“我们计划添加其他元数据,例如引文,以显示不同论文之间的链接。”

  目前,CORD-19数据集每周更新一次,研究人员可以下载。雷蒙德说,他们正在努力发布每日更新。

  除了数据池外,AI2团队还发布了工具。CoViz使研究人员能够识别CORD-19数据库中出现的概念之间的关联。CORD-19 Explorer是建立在顶部的搜索引擎。

  “从本质上讲,这是一种获取以前成千上万个PDF PDF的方法,并使它非常非常容易地针对任何特定的研究兴趣来复习该文献。”

  结构优势

  实际上,通常有大量有关COVID-19和冠状病毒的信息,许多小组正在努力收集和共享这些数据。世界卫生组织有一个COVID-19研究数据库 ,美国国立卫生研究院LitCOVID 资源也跟踪COVID-19文献​​。Microsoft专门提供了COVID-19资源页面 和 CORD-19 AI强力搜索。欧弗顿(Overton)创建了COVID-19政策数据集,而Cochrane图书馆也策划了COVID-19文学评论集。

  “我们坐在上个世纪我们创造的科学宝库上。我们想让与COVID-19相关的任何事物向全世界开放,以找到一种治疗方法,并使我们了解我们目前正在经历的事情,这只是超现实的事情。”迈克尔·丹尼斯说,他回荡了许多人的想法。

  化学摘要服务创新副总裁Michael Dennis

  Dennis是美国化学学会的一个分支化学摘要服务的创新副总裁。100多年来,CAS一直在收集小分子并对其化学结构,序列,毒性和已知的生物学活性进行分类。CAS已建立了约50,000种化合物的候选化合物数据集,这些化合物是根据其化学结构与已知抗病毒化合物的相似性以及这些结构的可药物性和毒性而选择的。该集合在CORD-19数据集中可用。

  丹尼斯说:“如果愿意的话,这将是科学家的开端。”

  CAS首先使用SciFinder n编译所有已知抗病毒剂的列表,SciFinder n是用于在CAS注册表中挖掘1亿个小分子的CAS发现平台。

  “我们淘汰了已知的抗病毒化合物。一个例子是瑞德昔韦。它具有CAS登记号,我们对该分子(包括其形状)了解很多。我们最终获得了约100种已知的抗病毒药。我们不仅仅关注COVID-19;我们不仅关注冠状病毒。我们扩大了一点,”丹尼斯说。从那里开始,研究小组通过寻找具有相似化学结构的化合物进行亚结构搜索和相似性搜索,然后根据大小,毒性和生物学活性进一步完善了该列表,从而基于这100种已知的抗病毒剂扩展了候选对象库。他们寻找抗感染药,呼吸系统药和酶抑制剂。

  “最终我们得到了约50,000种化合物的候选化合物数据集,” Dennis说。“我们不能保证他们会治疗[病毒感染],但基于我们所做的所有工作,它们与已知的抗病毒药物有关。”

  CAS于3月中旬发布了其COVID-19结构数据集,并通过语义学者托管的CORD-19数据集提供了该数据集。CAS已经在处理其他数据集。“我们开始研究SAR数据-结构活动关系数据。这与这些分子如何与靶标蛋白质结合有关。这种关系对任何疾病的治疗都很重要。”丹尼斯说。

  团结努力

  Dennis says the CAS dataset has been downloaded by pharma companies, biotechs, and academic researchers all over the globe. Many are organizations CAS has had long relationships with, but some are new. “They’re organizations that aren’t traditional biotech or pharmaceutical companies. They’re organizations that focus more on software and AI. They normally wouldn’t license tools like SciFinder, but they want access to this kind of rocket fuel for their AI engines,” he said.

  在人工智能方面,雷蒙德也看到了类似的融合。他说:“我们看到了两个社区的极大兴趣。” “使用自然语言处理技术来尝试挖掘嵌入在该数据集中的信息的NLP社区非常参与,并且已经根据我们发布的内容发布了工具,新的评论和信息。我们还看到医学研究界也对资源产生了极大的兴趣。”

  丹尼斯(Dennis)和雷蒙德(Raymond)都认为,将这些生物医学数据集提供给生命科学研究者和AI研究者,将加速发现治愈方法。

  “我认为这将是一种混合[努力],”丹尼斯谈到未来的治疗方法。“我认为这将是AI技术与更传统的科学的结合,它将为COVID-19解锁下一种疗法。它在那里。我100%相信我们会找到它。”

  雷蒙德同意了。“我们成立时是一家为了公益的AI研究所。遭受像COVID-19这样的威胁[影响我们所有人。]这是展示AI如何支持更好的科学方法的绝好机会。我们希望不仅能够帮助找到COVID-19的治疗方法并最终治愈它,而且我们能够更广泛地促进科学进步。”


分享到:


相關文章: