公众号/
编辑/凯霞
机器学习方法的兴起正在加快材料和药物发现过程,然而,当前的技术,主要是深度学习,需要大量数据集来训练模型,并且许多特定类别的化学数据集包含少数示例化合物,限制了它们泛化和生成可以在现实世界中创建的物理分子的能力。
现在,MIT 和 IBM 研究院的研究人员提出了一种数据高效的生成模型,该模型可以从比普通基准小几个数量级的数据集中学习。这种方法的核心是一种可学习的图形语法,它从一系列生产规则中生成分子。该模型不仅可以对其示例进行逆向工程,还可以以系统和数据高效的方式创建新化合物。
MIT 电气工程和计算机科学教授 Wojciech Matusik 说:「我们基本上建立了一种用于创建分子的语言,这种语法本质上是生成模型。」
该研究以「Data-Efficient Graph Grammar Learning for Molecular Generation」为题,发表在深度学习顶级学术会议 ICLR 2022 上。
「我们希望将这种语法表示用于单体和聚合物的生成,因为这种语法是可解释和富有表现力的,」该论文的第一作者 Minghao Guo 说。「只需少量的生产规则,我们就可以生成多种结构。」
分子结构可以被认为是图形中的符号表示——通过化学键(边)连接在一起的一串原子(节点)。在这种方法中,研究人员允许模型采用化学结构并将分子的子结构折叠到一个节点;这可能是通过键连接的两个原子,键合原子的短序列或原子环。重复执行此操作,创建生产规则,直到剩下一个节点。然后可以以相反的顺序应用规则和语法,从头开始重新创建训练集,或以不同的组合组合以产生相同化学类别的新分子。
「现有的图形生成方法会一次按顺序生成一个节点或一条边,但我们正在研究更高层次的结构,特别是利用化学知识,这样我们就不会将单个原子和键视为一个单元。这简化了生成过程,同时也提高了学习的数据效率,」IBM 研究院的 Jie Chen 说。
图 1 概述了研究人员所提的方法。给定要优化的分子和特定领域的指标,研究人员迭代地构建和评估图文法作为其生成模型。将构建视为最小生成森林问题,并将其与相结合,通过一个可学习的函数 Fθ 确定构建哪些规则。
图 1:方法概述。
此外,研究人员优化了这项技术,使自下而上的语法相对简单明了,从而制造出可以制造的分子。
虽然研究人员专注于三个训练集,每个样本少于 33 个样本——丙烯酸酯、扩链剂和异氰酸酯——但他们注意到该过程可以应用于任何化学类别。
为了了解他们的方法是如何执行的,研究人员将该论文所提方法 DEG(Data-Efficient Graph Grammar 的缩写)与其他最先进的模型和技术(GraphNVP、JT-VAE、HierVAE、MHG 和 STONED)进行了对比,观察了化学有效和独特分子的百分比、产生的分子的多样性,逆合成的成功率,以及属于训练数据的单体类分子的百分比。
小型、特定类别聚合物数据的结果:表 1 显示了异氰酸酯数据的结果。观察到 GraphNVP 的性能相当差。VAE 和现有的基于语法的系统在某些指标上表现相当不错,但在 RS(Retro∗ Score) 和 Membership 指标上得分较低。相比之下,DEG 在所有三个数据集上的 Memb. 和 RS 方面都明显优于其他方法。它还在所有其他指标上实现了最佳或可比的性能。
表 1:异氰酸酯的数据结果。
总体结果表明:(1)DEG 学习的、基于子结构的语法成功地捕捉到了类细节,这是一个迄今为止被忽略的关键评估标准。(2)其他关键的、特定领域的指标,如 RS 可以在语法学习期间成功优化。DEG 的分数比其他人高 5 分。更重要的是,优化是在语法构建期间就地完成的,因此它避免了后处理。(3)DEG 方法是唯一一种不断实现稳定性能的方法。总而言之,这些结果清楚地将 DEG 与其他结果区分开来。
Guo 说:「我们算法的惊人之处在于,与在数万个样本上训练的最先进方法相比,我们只需要大约 0.15% 的原始数据集即可获得非常相似的结果。我们的算法可以专门处理数据稀疏的问题。」
大型聚合物数据集的结果:研究人员还研究了 DEG 与现有方法相比如何在大型单体数据集上执行。由于 DEG 方法相对复杂,但数据效率更高,将其应用于 0.15% 的子集。
表 2:大型聚合物数据集的结果。
研究得出,一些 SOTA 系统,如 SMILESVAE 和 GraphNVP 无法捕获任何分布细节,并且大多会生成无效分子。JT-VAE 和基于语法的基线(MHG、STONED)相对于前者表现不佳,但它们的样本质量是合理的。HierVAE 在除倒角距离之外的所有指标上都表现出色。DEG 通常可以与后者竞争(仅在 0.15% 的数据上训练)并获得更好的样本质量,尤其是 Chamfer 距离是两倍高。
在不久的将来,该团队计划解决扩大这个语法学习过程的问题,以便能够生成大图,以及生产和识别具有所需特性的化学品。
研究小组指出,在未来,研究人员看到了 DEG 方法的许多应用,因为它除了产生新的化学结构之外还具有适应性。图形是一种非常灵活的表示形式,许多实体都可以用这种形式进行符号化——例如,机器人、车辆、建筑物和电子电路。「本质上,我们的目标是建立我们的语法,以便我们的图形表示可以在许多不同的领域广泛使用,」Guo 说。
代码地址:https://github.com/gmh14/data_efficient_grammar
论文链接:https://openreview.net/forum?id=l4IHywGq6a
参考内容:https://phys.org/news/2022-04-machine-learning-method-learnable-chemical-grammar.html