编辑/绿萝(ID:Philosophyai)
近日,来自斯坦福大学的 Sadasivan Shankar 和 Richard N. Zare 在《Nature Machine Intelligence》发表 Correspondence 文章:「The perils of machine learning in designing new chemicals and materials」,指出了机器学习在设计新化学品和材料中的危险。
论文地址:https://www.nature.com/articles/s42256-022-00481-9
机器学习有望彻底改变化学和材料科学的实践。机器学习已经被用于寻找新的药物化合物,包括对抗 COVID-19 大流行。这给未来带来了巨大的希望,但也带来了巨大的危险。正如 Urbina 等人最近发表的评论《Dual use of artificial-intelligence-powered drug discovery》所指出的那样,目前,对不利因素的关注太少了。
论文地址:https://www.nature.com/articles/s42256-022-00465-9
我们很容易认识到机器学习方法的好处,例如,测试化学品和材料的毒性——这是我们作为计算机科学家和化学家的联合团队开展的一个领域。首先,当您考虑到在美国注册用于商业用途的化学品中,只有不到 1% 的化学品经过了毒性表征,无论它们是用于医疗目的还是用于水力压裂,这一需求是显而易见的。此外,用非动物试验系统代替目前用于毒性试验的动物具有许多科学、伦理和经济优势,并且在使用计算机系统方面具有巨大的速度和成本优势。
其次,在 20 世纪,材料和化学品的使用量已增加到每年 600 亿吨,这凸显了快速机器学习方法在毒性表征方面的优势。
最后,可以数字化设计的材料和化学品的数量远远超过了已经得到充分表征的数量。例如,基于具有六个表面的材料组合数量的估计超过数万亿,而仅基于己烷的有机化学品超过 10^30,这清楚地表明了可能性的巨大。
可能的材料和化学组合可能性的数量说明。
机器智能的这种新力量带来的缺点不太明显。正如体液的机器学习分析可用于开发针对个体的药物一样,它也可用于设计病毒或毒素,这些病毒或毒素可能仅根据某些人的基因感染——这是一个真正可怕的前景。同样,虽然机器学习可能有助于发明改进的材料,例如可生物降解的塑料和更持久的电池,但也很容易想象它如何被用来设计一种无味的化合物,可能被用于污染社区的供水。
科学机构以前也遇到过类似的双重用途问题。例如,当基因编辑成为可能时,领先的科学家和伦理学家呼吁暂停种系基因编辑的临床应用,这涉及对胚胎 DNA 的可遗传改变,以改变新生儿的身体和心理能力。但暂停也意味着我们牺牲了这些进步可能给社会带来的一些潜在优势。
随着机器学习工具越来越广泛地用于新化合物和材料制造,滥用的可能性也在增加,需要加以防范。在当前环境中,计算能力的广泛可用性意味着任何可以访问互联网的人都可能滥用这些工具。现在是认识和解决这种危险的时候了。
最近,斯坦福大学的伦理与社会审查小组就作者提出的一个项目进行了接触,该项目涉及使用机器学习来预测化学品和材料的毒性。该小组就作者研究的伦理和社会后果提出了重要问题。一方面,一旦完善,这种能力可以用来扫描有毒物质——例如,在用于压裂液提取石油的所有化学物质中。另一方面,恶意行为者也可以使用它来寻找新的方法来毒化地面或水。具体来说,专家组告诉我们,我们应该考虑如何控制软件、模型及其输出的分布,以尽量减少潜在的误用。
在与专家组讨论后,作者就如何克服这一双重用途问题征求了其他专家的意见。他们联系了许多其他科学家和工程师,包括那些部署了开放软件或数据库的科学家和工程师,以从他们的经验中学习。令他们深感沮丧的是,几乎没有找到来自联邦机构官员或企业界的指导。在保护隐私或防止偏见方面,发现了大量关于人工智能算法在道德上使用的讨论,例如《人工智能负责任发展蒙特利尔宣言》(the Montreal Declaration for a Responsible Development of Artificial Intelligence),但没有专门关于双重用途问题的讨论。也许有人在考虑这个问题,但在开始此类项目之前,我们并不容易找到他们。这是个问题。
公开工作、鼓励采用和改进新代码和数据库,以及保护其免受滥用和误用之间存在内在冲突。作者呼吁专家和相关方召开会议,提出一个可行的计划,尽可能地满足两个目标:在确保安全部署的同时广泛使用新功能。研究界和资助这个社区的人需要在这个问题发展成严重问题之前解决这个问题。