IT思维

文章页右侧顶部广告

药物化学再添新工具,用Transformer打造的交互式化学反应图集

2021-02-28 16:27:59 0 人工智能 | , ,

公众号/ScienceAI(Philosophyai)

编译/文龙

化学反应是将反应物转化为一种或多种产物的过程。在药物化学合成工具箱中,目前有数百种不同类型的反应可供选择,并且这一数字还在不断增长。这些合成方法通常以「人名反应」的形式命名,以表彰合成方法的发现者、促进科学家之间的相互交流。实际上,影响下一步生成何种产物的因素有很多,关键是如何选择最合适的合成路线。

IBM研究院的团队开发了一种能够自动分类这些有机化学反应的机器学习方法。该研究以Mapping the space of chemical reactions using attention-based neural networks为题发表在《自然机器智能》(Nature Machine Intelligence)杂志上。

原先的方法是使用适用于分子反应数据库的特制规则对反应进行识别和分类。反应机制的规则集通常由专家人工制定,并以SMIRKS格式存储。SMIRKS是一种通用的反应转换语言,但学习起来相当复杂(部分原因是SMIRKS满足一些相互矛盾的要求)。因此,世界上很少有人能够编写有含义且正确的SMIRKS语句。通过使分类过程自动化,制定明晰的规则这一难题将留给机器。此外,自动化和机器学习有可能提高分类过程的准确性和顽健性。
为了了解不同反应之间的化学基元的区别,研究团队使用基于注意力(attention)的神经网络算法,该算法通常用于自然语言处理领域。实验结果表明,序列到序列(seq2seq)模型和基于变换器的双向编码器表示技术(BERT)都能够准确预测和分类化学反应类别。

神经网络需要大量的训练数据才能可靠地工作。尽管在公司和公共数据库中都有大量化学反应数据可用,但数据存储的格式往往不一致,与标准的机器读取格式不兼容。研究表明基于Transformer的模型可以从没有注释的化学反应文本表示构成的大型数据库中推断反应类别。该模型通过使用无监督学习来构建反应空间,从而可以使用有限的标记数据来构建准确的反应分类器。

论文的主要作者是Philippe Schwaller表示,他们的BERT模型所学习的表示形式可以用作反应指纹。反应指纹的优点是它们不需要原子映射,可以用于非结构化数据;另一个优点是与反应中涉及的分子数无关。并且,这些反应分类中的指纹数量比参考的指纹数量高出两倍,可用于在人名反应空间中有效地搜索和查找相似的反应类型。作者利用这一点创建了一个交互式反应图集,对化学反应进行视化聚类,增强了可解释性。该项目目前还处于初期阶段,但已经有研究团队使用它创建了芳香族亲核取代反应的反应图,并能够将具有相同亲核原子和离核原子的反应进行聚类。

图示:可视化化学反应簇的交互式反应图集,更易解释。(来源:论文)

开发这种工具是一项值得称赞的举措。过去,尽管有机化学家已经拥有多种分子设计的工具,但可用于帮助计算化学家进行化学合成的工具却很少。为了决定分子在药物化学实验室中的合成方式,计算化学家需要学会有机化学家使用的语言。未来,药物化学家将需要精通计算机辅助的分子设计和化学合成。

论文链接:https://www.nature.com/articles/s42256-020-00284-w

项目地址:https://rxn4chemistry.github.io/rxnfp/

参考内容:https://www.nature.com/articles/s42256-021-00299-x#ref-CR2

IT思维

IT思维(itsiwei.com)是互联网首个定位在科技与电商“思维”韬略的平台,我们时刻关注互联网电商行业新动向; 诚邀行业资深从业者加入“思维客家族”!

发表留言

Return to Top ▲Return to Top ▲