公众号/ScienceAI(ID:Philosophyai)
编辑/凯霞
杜氏肌营养不良症(Duchenne muscular dystrophy,DMD)是一种由肌营养不良蛋白基因突变引起的肌肉萎缩性遗传疾病。通常在小男孩中诊断出来,患者约在 5 岁左右开始出现肌肉无力的症状,此后快速恶化,在 12 岁左右失去行走能力,随着疾病的进展,直到心脏或肺部衰竭。今天,DMD 患者的平均预期寿命约 26 岁。
2019 年,总部位于马萨诸塞州剑桥的 Sarepta Therapeutics 宣布了一种直接针对导致 DMD 的突变基因的突破性药物。该疗法使用反义磷酸二酰胺吗啉代寡聚物(phosphorodiamidate morpholino oligomer,PMO),这是一种大型合成分子,可渗透细胞核以修饰肌营养不良蛋白基因,从而产生一种通常在 DMD 患者中缺失的关键蛋白质。「但 PMO 本身存在问题。它不太擅长进入细胞,」 麻省理工学院化学系博士候选人 Carly Schissel 说。
为了促进向细胞核的传递,研究人员可以将细胞穿透肽 (CPP) 附加到药物上,从而帮助它穿过细胞膜和核膜到达目标。然而,哪种肽序列最适合这项工作,仍然是一个迫在眉睫的问题。
现在,麻省理工学院的研究人员开发出一种系统的方法来解决这个问题,通过将实验化学与人工智能相结合来发现无毒、高活性的肽,这些肽可以附着在 PMO 上以帮助递送。通过开发这些新序列,有望加速 DMD 和其他疾病基因疗法的开发。
该研究以《Deep learning to design nuclear-targeting abiotic miniproteins》为题,于 8 月 9 日发表在《Nature Chemistry》杂志上。
「用计算机提出新的肽并不难。判断它们是好是坏,这才是难点,」Gomez-Bombarelli 说。「关键的创新是使用机器学习将肽的序列,特别是包含非天然氨基酸的肽,与实验测量的生物活性联系起来。」
梦想数据
CPP 是相对较短的链,由 5 到 20 个氨基酸组成。虽然一个 CPP 可以对药物输送产生积极影响,但几个连接在一起在运送药物越过终点线方面具有协同效应。这些较长的链,包含 30 到 80 个氨基酸,称为微型蛋白质。
首先,研究人员需要创建一个强大的数据集。通过混合和匹配 57 种不同的肽,Schissel 和她的同事能够构建一个包含 600 种微蛋白的文库,每个微蛋白都与 PMO 相连。
该项目的一个目标是创建一个可以处理任何氨基酸的模型。该团队选择用拓扑指纹图谱来表示氨基酸,这实质上是为每个序列创建一个独特的条形码,条形码中的每一行表示特定分子亚结构的存在或不存在。「即使模型之前没有见过[序列],我们也可以将其表示为条形码,这与模型见过的规则一致,」负责该项目开发工作的 Mohapatra 说。通过使用这种表示系统,研究人员能够扩展他们的可能序列工具箱。
该团队在微型蛋白质库上训练了一个卷积神经网络,600 种微型蛋白质中的每一种都标有其活性,表明其渗透细胞的能力。早期,该模型提出了含有精氨酸的微型蛋白,精氨酸是一种在细胞膜上「撕裂」一个洞的氨基酸,这对于保持细胞存活来说并不理想。为了解决这个问题,研究人员使用优化器来使精氨酸去中心化,防止模型「作弊」。
图示:基于定向进化的机器学习模型预测用于大分子传递的高活性非生物微蛋白。(来源:论文)
最后,解释模型提出的预测能力是关键。「通常只有一个黑匣子是不够的,因为模型可能会关注不正确的东西,或者因为它可能不完美地利用了一种现象,」Gomez-Bombarelli 说。
交付提升
最终,机器学习模型提出了比任何以前已知的变体都更有效的序列。特别是可以将 PMO 交付提高 50 倍。
通过给小鼠注射这些计算机建议的序列,研究人员验证了他们的预测,并证明这些微型蛋白是无毒的。
图示:用 PMO-Mach 治疗后 EGFP 转基因小鼠中的 EGFP 合成:股四头肌 (g)、膈肌 (h) 和心脏 (i) 中的剂量反应 EGFP 蛋白水平。(来源:论文)
现在说这项工作将如何影响患者还为时过早,但更好的 PMO 交付将在几个方面有益。例如,如果患者接触到较低水平的药物,他们可能会遇到较少的副作用,或者需要较少的剂量(PMO 静脉注射,通常每周一次)。治疗也可能变得更便宜。
作为这一概念的证明,最近的临床试验表明,来自 Sarepta Therapeutics 的专有 CPP 可以将 PMO 的暴露减少 10 倍。此外,PMO 并不是唯一可以通过微蛋白改善的药物。在其它实验中,模型生成的微蛋白携带其他功能蛋白进入细胞。
Mohapatra 注意到机器学习研究人员和实验化学家的工作之间存在脱节,他已在 GitHub 上发布了该模型,并为拥有自己的序列和活动列表的实验者提供了教程。他指出,到目前为止,来自世界各地的十几个人已经采用了该模型,重新利用它来对各种药物做出了强有力的预测。
总之,该策略说明了如何将深度学习应用于功能性非生物微蛋白的从头设计。这一策略将使未来快速设计全新功能肽成为可能,并对化学、生物和材料科学产生影响。
论文链接:https://www.nature.com/articles/s41557-021-00766-3
参考内容:https://phys.org/news/2021-08-machine-sequences-boost-drug-delivery.html
项目地址:https://github.com/learningmatter-mit/peptimizer