公众号/
编辑 | 萝卜皮
内部验证是药物靶点预测模型最常用的评估策略。然而,交叉验证中的简单随机洗牌对于处理大型、多样和丰富的数据集并不总是理想的,因为它可能会引入偏差。因此,无法对这些预测模型进行全面评估,以深入了解它们在各种用例上的一般性能(例如,药物和目标空间中不同级别的连接性和类别的排列,以及基于不同数据源的验证)。
在最近的一项研究中,梅奥医学中心(Mayo clinic)的研究人员引入了一个基准 BETA,旨在通过提供一个广泛的多方网络,其中包括 97 万个生物医学概念和 850 万个关联,以及 6200 万个药物-药物和蛋白质-蛋白质相似性。
同时,研究人员提出了七个案例的评估策略(即一般性,不同连通性筛选,基于类别的靶点和药物筛选,寻找特定的药物和靶点以及针对特定疾病的药物再利用),总共七个测试(共由 344 个任务组成)跨越多个抽样和验证策略。
该研究以「BETA: a comprehensive benchmark for computational drug–target prediction」为题,于 2022 年 6 月 2 日发布在《Briefings in Bioinformatics》。
药物发现过程的关键是能够定义、识别、筛选和理解小分子(即药物)和蛋白质(即靶标)之间的潜在候选对。尽管使用生物测定进行实验验证药物-靶标相互作用 (DTI) 方面取得了众多进展,但药物开发的这些早期步骤仍然难以完成。
使用当前的实验筛选(体外)方法来涵盖 DTI 的所有可能组合是不可行的,并且只关注特定家族的「可药物」蛋白质或「优选」药物的趋势大大限制了对潜在数量更多的可用化合物、小分子和蛋白质的系统筛选。因此,采用计算方法来进行更有效的预筛选势在必行。
计算方法历史上始于对接模拟和配体匹配的早期尝试,最近发展到基于机器学习的解决方案。尽管希望通过称为外部验证的生物测定来验证发现,但对于大多数计算实验室来说是不可行的。因此,内部验证(例如交叉验证)是现有方法最流行的验证策略,其中一些药物-靶标关联在训练过程中仍待测试。内部验证中的数据集要么是从早期尝试开发的小规模数据集,要么是从包含药物-靶标关联的各种生物医学数据库生成的定制集。
例如,在最近的一项调查中发表的 87 篇被调查的计算论文中,79 篇(91%)和 66 篇(77%)论文基于生物医学数据库 Drugbank 和京都基因和基因组百科全书(KEGG)进行了实验,54 篇( 62%) 使用基于目标空间中蛋白质类别的小规模药物-目标关联,该目标空间为 2008 年交叉验证而开发。
在这些具有简单随机的实验中可能仍然存在偏差,因为药物和目标空间中具有大量关联的连接模式和类别将受到青睐。不存在提供大型数据集的黄金标准,以及将偏差风险降至最低的复杂验证方法。在药物开发阶段选择合适的计算解决方案的复杂性是一个持续的挑战,如果没有这样一个标准基准来以公平和全面的方式评估预测模型,开发的计算方法的可采用性就会受到阻碍。
图示:拟议基准的组织。(来源:论文)
在这项工作中,梅奥医学中心的研究团队通过提供一个大规模的基准来填补这一空白,该基准能够对药物-靶点预测模型进行全面评估,以促进药物和靶点预筛选的计算策略的选择。该基准提供了一个广泛的多部分网络,包括 97 万个生物医学概念,包括 5.9 万个药物和 9.5 万个靶点,以及 850 万个关联,包括 81.7 万个药物-靶点关联,以及基于药物化学结构和基因序列的 6200 万药物-药物和蛋白质-蛋白质相似性,可用于全面评估预筛选策略,反映了七个用例,总共七个测试,涵盖基于药物-目标空间的两种类型的训练/测试采样策略以及六种类型的验证策略。
为了演示该基准测试的使用,研究人员选择了六种最先进的预测模型,并根据输入类型(即基于结构和序列以及基于网络的方法)进行分类,并作为用例进行评估。研究人员已经分析了表现最差的几种疾病。当一对药物和靶标作为输入时,结果突出显示了 BETA 作为药物再利用和靶标发现应用的药物-靶标预测方法选择的基准。
图示:拟议基准中两个视角(即数据空间和验证)的物流。(来源:论文)
为了设计基准,研究人员从现有的可公开访问的数据库和知识库中提取了各种生物医学关联信息,并设计了各种评估任务来评估预测模型将阳性和阴性药物-靶标与类似药物。
研究人员希望该工作将提供一种标准化和全面的方法来评估现有模型以及大量信息,以便于在现实发展过程中选择最合适的预测模型,即预测药物-靶点与给定一对药物和靶点的相关性,从而为成功开发健壮的计算药物-靶标预测方法奠定必要的基础,类似于文本检索会议对信息检索的贡献和 ImageNet 对视觉识别的贡献。
当然,他们的基准测试是为需要一对输入的方法设计的,不适用于类似于(Q)SAR 的仅需要化学结构的方法。
该团队提出的基准的主要优势包括创建一个大规模多维预测网络,该网络由一组广泛的生物医学实体和各种类型的关联组成,以及各种预测用例,其中可以根据拓扑连通性或生物医学类别的差异来选择用于训练和测试的药物和目标。数据集和评估任务作为现成的方法提供,可以很容易地用作药物开发活动和科学实验的有据可查的资源。
尽管他们已经合并了 11 个存储库,但需要更多的努力将重要的存储库合并到基准测试中。通过映射到公共节点空间(即来自 Drugbank 的药物目标和来自 OMIM 的疾病),可以简单地将数据集添加到该团队的基准测试中。目前,他们计划在其数据可公开访问时合并更多存储库。
相关网站:https://github.com/bioIKEA/IKEA_BETA_Benchmark/tree/master/data_space/output/datasets/pending
通过实验,研究人员发现了现有最先进方法的两个局限性/偏差。首先,他们无法处理新药和新靶点,其次,他们无法针对给定蛋白质正确地重新利用药物。
由于靶向确定的抗肿瘤化合物的发现被认为是一种更有效的药物开发方式,它促使研究人员开发新的再利用方法来满足这些需求。拟议的基准将对药物再利用方法的有效性进行精细评估。另外,当训练和测试节点共享更多连接时,DeepPurpose 和 NeoDTI 的表现都较差(例如 CC > TA > TC > TT;SU > SS > DI)。
尽管预计基于网络的方法(例如 NeoDTI)会受到药物和靶点连接性的影响,但这是为 DeepPurpose 发现的一种新偏差。从某种意义上说,它展示了药物开发环境中药物和蛋白质的基于拓扑、结构和序列的特征之间的间接联系。尽管他们解决了由数据特征(例如拓扑结构)引起的偏差,但没有解决药物开发实践中的一些偏差(例如调查偏差)。需要更多的评估任务来完善对偏差的调查。
基准中的评估任务依赖于 Drugbank 中提供的药物-靶标关联,这被认为是基本事实。Drugbank 中的药物-靶点关联是通过多个来源收集、整理和验证的,并广泛用于药物-靶点预测任务。在这项研究中,研究人员只是信任现有的知识库来建立基准。保持更新值得信赖并得到实验屏幕支持的关联也很重要。另一方面,提出的基准旨在提供异构生物医学信息,尽管认识到处理此类信息是一项挑战。
为了表示知识图谱,研究人员使用了无向多维网络。只为每个存储库保留一个主题,并使用 owl:sameAs 在不同存储库之间映射相似的概念,以便它们可以与不同的关联链接。研究中,除了药物-靶点关联外,评估仅涵盖部分关联的使用。当前的基准是评估药物-靶点预测的性能,异构数据集旨在促进计算,但不是必需的。
在评估中,该研究仅包含两种类型的方法:基于结构和序列的方法和基于网络的方法,因为它们使用了两种不同形式的输入数据——生物医学知识的图形结构和化学结构和基因序列。这两种类型被认为是理想的代表。其评估结果突出了 BETA 作为药物再利用和靶点发现计算策略选择的基准。
论文链接:https://academic.oup.com/bib/article/23/4/bbac199/6596989