公众号/将门创投
来源:researchblog.duke.edu 编译:Kathy
蛋白质晶体通常没有宝石那般迷人的光泽和魅力,但无论颜值如何每一个晶体对科学家都弥足珍贵。
并非所有的蛋白质晶体都像这些在太空中结晶的晶体一样带有彩虹色。但是不管它们是美是丑,科学家们都视若珍宝
杜克大学化学和物理学教授Patrick Charbonneau和一群来自世界各地的科学家,与谷歌大脑的研究人员合作,使用最先进的机器学习算法来发现这些珍贵的晶体。他们的工作可以使研究人员更容易地绘制出蛋白质结构图,从而加速药物的发现。
Charbonneau说:“每当你错过一个蛋白质晶体,因为它们非常罕见,你就有可能错过了一个重要的生物医学发现。”
了解蛋白质的结构是了解其功能以及设计出适合其特定形状的药物的关键。但是传统的确定这些结构的方法,称为X射线结晶学,要求先对蛋白质进行结晶。然而结晶蛋白质不是困难,是非常困难。与构成盐和糖等普通晶体的简单原子和分子不同,蛋白质是异常庞大的分子,每个分子可以包含数万个原子,它们很难排列成构成晶体基础的有序阵列。让蛋白质这样的物体自己组装成晶体像极了一个变魔法的过程。
即使经过数十年的实践,科学家也不得不部分依靠反复试验试错来获得蛋白质晶体。分离出一种蛋白质后,他们将它与数百种不同类型的液体溶液混合,希望找到正确的配方,使蛋白质结晶。然后,科学家在显微镜下观察每种混合物的液滴,希望能够发现正在生长的最小的晶芽。
“你必须亲自去显微镜下寻找发现晶体,那里有一个,这里没有,那里有一颗,而通常的结果都是没有,没有,没有。“Charbonneau说,“不仅雇人做这个工作花费很高,而且人是容易失失误的。人会感到疲劳,会变得粗心,而且会影响他们其他的工作。”
机器学习软件搜索点和边(左),以识别图像中溶液液滴的结晶。它还可以识别非结晶固体(中间)和非固体(右边)。
Charbonneau认为,深度学习软件现在能够识别照片中人的面孔,即使面孔是模糊的或从侧面抓拍的,那么深度学习软件也许能够识别溶液中构成晶体的点和边。
基于这样的想法,来自学术界和工业界的科学家聚集在一起,将五十万张蛋白质结晶实验图像收集到一个名为MARCO的数据库中。根据人类的评估,这些数据具体说明了溶液中的哪一种物质导致了结晶。
该小组随后与Google Brain的Vincent Vanhoucke领导的小组合作,应用最新的人工智能帮助识别图像中的晶体。
用于晶体识别的深度卷积神经网络(Convolutional neural network, CNN),通过不同层的卷积抽取出图像中的特征,并在最后的输出中得到不同种类晶体的输出结果,以区分晶体和沉淀,干净的还是含有杂质的。网络的输出为299*299的图像,通过七层的结构最终得到了输出结果。
在数据子集上对深度学习软件进行“训练”后,将深度学习软件应用到整个数据库中。人工智能准确识别晶体的几率大约95 %,据估计,人类发现晶体的正确率只有85 %。
研究人员对于取得的结果十分满意,他们成功的将卷积网络对于物体的识别能力迁移到了晶体这样基于几何特征的分类任务中去。
上图为训练结果,可以看到实现了接近94%的测试准确率。
其他研究小组已经被要求使用人工智能模型和MARCO数据集来训练他们自己的机器学习算法,以便在蛋白质结晶实验中识别晶体。Charbonneau 表示这些进展应该会让研究人员把更多的时间放在生物医学发现上,而不是在观察样品找晶体上消耗时间。
研究人员们在未来计划利用这些数据来了解蛋白质是如何自己组装成晶体的,这样就可以更少的依赖偶然性来实现蛋白质结晶的“魔法”,从而真正了解其内在的物理化学过程和动力学机制。