看不上机器学习的生物学家,在蛋白结合识别上遭遇真香

# 深度 | Deep-diving

136 个

计算生物学家布鲁诺 · 科雷亚(Bruno Correia)的实验室里曾经有条规矩:不允许使用机器学习算法。那时他认为机器学习并非真正的科学。而现在,科雷亚已将其用来检测负责许多生物过程的复杂折叠分子——蛋白质之间潜在的相互作用,这比传统的方法快了 4 万倍。2020 年 2 月,《自然 – 方法》(Nature Methods)期刊使用了他研发的这套系统作为封面。当再谈到他早期不愿接受机器学习算法时,科雷亚承认:” 我错了,我欣然接受我的错误。”

是什么让他改变了想法?答案是几何深度学习(Geometric deep learning)。这是人工智能领域的新兴分支,通过数据训练,它可以分析曲面上的特征模式。

蛋白质通过结合彼此的 ” 凹凸 ” 位点来进行相互作用,就像三维拼图那样。这个著名的 “蛋白折叠问题”,自 20 世纪中期以来就困扰着科学家们,研究者们用了数十年的时间尝试搞清楚它们是如何交互的。他们试图通过解码组成蛋白质的氨基酸构成以及其最终的 3D 形态,来了解蛋白质相互作用。在 1999 年,IBM 开始研发其蓝色基因(Blue Gene)超级计算机来解决折叠问题;20 年后,DeepMind 则应用当下最先进的深度学习算法来解决它。

– Gianluca Fallone –

科雷亚所研发的系统,MaSIF(分子表面相互作用指纹分析)忽略了分子的内部结构,从而绕开了蛋白质 3D 结构的固有复杂性。取而代之的是,该系统通过扫描蛋白质的 2D 表面来得到交互 ” 指纹 “,并由神经网络学习其特征,预测另一个蛋白质在位点结合的情况。哈佛大学医学院中使用深度学习的蛋白质研究者穆罕默德 · 阿尔库雷希(Mohammed AlQuraishi)说:” 这个系统的概念就是,当任意两个分子相遇时,它们最终呈现出的就是两个表面。因此,你只要了解这些表面就够了,这种方法是非常非常创新的。”

聚焦于分子表面特征,以预测蛋白质相互作用,该框架可以帮助人们加速 ” 从头设计蛋白质 “(de novo protein design),即尝试从零开始合成蛋白质,而不是依赖于天然存在的蛋白质种类。迈克尔 · 布龙斯坦(Michael Bronstein),帝国理工学院的一位几何深度学习专家则认为,MaSIF 也可以应用于基础生物学:” 比如研究癌症是如何影响蛋白质特性的。通过探索癌症变异是否摧毁了蛋白质中的某些结构,使得它们表现出另外一种形式,从而无法与原来特定的蛋白质进行结合。MaSIF 可以用来解答这些本质问题。”

– Jerrin Varghese –

” 肤浅 ” 的深度学习

如果想了解深度学习是如何得到蛋白质指纹的,布龙斯坦建议我们参考 2000 年早期的数码相机。这些相机内置的人脸检测算法和该系统的作用差不多。他解释道:” 你只需要检测这里是否有张脸,有着一双眼睛,一个鼻子和一张嘴巴就可以了。而不用管那是高鼻子还是塌鼻子,是厚嘴唇还是薄嘴唇。”

现代相机则更加高级。它们能够识别出特定的人物,提前帮你找出相册中包含该人物的照片。

正是深度神经网络的出现使得相机的功能变得更加高级,它为计算机提供了一种方法,从训练数据中学习不同人物之间的细微特征差别。该过程包括收集同一张脸的众多不同照片,并将这些照片标注为同一个人。这样,你就不需要提前告诉计算机这个人的特征是什么,如绿色的眼睛、眉间距宽、黑色的头发等,这些特征加起来就使得这张脸独一无二。现在,只要有足够的标注数据,神经网络就可以自己学习到这些区别特征。

– Refik Anadol –

MaSIF 在蛋白质上也做着同样的事情。之前的那些蛋白质交互检测方法就好比那些基础的人脸检测算法。它们需要研究者事先定义一些特定的几何模式,如蛋白质上特定形状大小的 ” 凹凸 ” 位点,然后去搜索符合这些特征的结合位点。然而,MaSIF 只需要事先了解一些与蛋白质交互相关的基本表面特征,例如,平面的物理曲率(凸起还是凹陷)、电荷,以及是疏水还是亲水。随后,在训练过程中,神经网络把这些特征结合生成指纹,使其能够检测特征更复杂的蛋白。

直到最近,这种机器学习方法才被用在曲面、不规则的蛋白质表面上。正是几何深度学习的兴起开辟了研究道路。在为期两周的合作研究中,布龙斯坦把该方法推荐给了任职于洛桑联邦理工学院的科雷亚,科雷亚极力称赞道:” 原先我们用人工手段进行识别,那可真的是进展甚微。但现在全要归功于他!”

– Oleksandr Bereziuk –

MaSIF 的版本之一,MaSIF-site,可以扫描整个蛋白质表面,并预测出另外一个蛋白质最可能结合的位置。这个方法就像在一块曲面的画布上直接画出目标。科雷亚解释道:” 这就是我们所谓的单体问题(one-body problem),你可以将其视为定位特定蛋白质功能位点的方式。” 与两项业内领先的蛋白分子交互预测系统相比,MaSIF-site 的处理效率要高出约 25%。

该系统的另外一款版本MaSIF-search,解决了科雷亚所称的多对多问题。与预测某个蛋白质如何与目标分子结合不同(如典型的分子对接模拟),该系统可以对比多个蛋白质的交互指纹,搜寻结合部位。科雷亚解释道:” 在一个细胞中约有数以万计的蛋白质,并且其中的大部分都一直在与别的蛋白质相互碰撞。” 在这项多对多分析任务中,MaSIF 虽然没有能够超越目前业内最领先的分子对接预测系统——它在 100 个随机蛋白质集合中预测出了约一半可能的结合方式。但这个的预测系统需要花费约 100 天来完成搜索运算,而 MaSIF 系统只需要 4 分钟。

布龙斯坦认为这种巨大的速度提升为基础研究带来了 ” 瞩目的可能性 “。毕竟在人类身体中,蛋白质组成的功能网络包含数十万的蛋白质交互。他说:” 研究创建复杂的蛋白质交互关系表需要花费很长的时间,有了类似 MaSIF 这样的方法,虽然可能只是粗略的分析,但它至少可以快速地为任何有机体构建初步的蛋白质交互网络。”

– Oleksandr Bereziuk –

阿尔库雷希意识到,虽然 MaSIF 使用指纹深度学习方法来预测蛋白质交互是可行的,但它无法捕捉到被称作” 诱导契合 “的现象:当分子靠近彼此时,它们的表面形状(以及其化学性质)会改变。换句话说,直到两个蛋白质马上就要接触的时候,分子表面才会出现契合的指纹。由于诱导契合取决于蛋白质的复杂空间结构,因而 MaSIF 无法捕捉到它。阿尔库雷希说:”生物进化中最精妙部分可能正是诱导契合。而 MaSIF 虽然有着这样的不足,却仍能拥有很好的效果,这很令人惊讶。”

将诱导契合以及其他平面动力学引入 MaSIF 系统,是科雷亚未来的研究计划。” 对我来说,这是理解蛋白质功能的最终攻坚领域,它可能就是我接下来十年的任务。” 但就目前而言,他还有其他紧迫的事情要做——使用 MaSIF 扫描 SARS-CoV-2 病毒表面的 S 蛋白(Spike 蛋白质),正是这种病毒引发了新冠疫情。他说:” 我们正在尝试获取病毒的指纹。为了消灭病原体,除了那些已知的方法,该病毒似乎还有其他的弱点可攻破。” 科雷亚已经将该结论用于从头合成抗病毒蛋白,他希望今年就能将研究结果发表。他说:” 如果能够基于病毒蛋白的表面指纹来设计出新的对抗蛋白,阻止病毒入侵宿主细胞,那将非常振奋人心。现在研究正在不断取得进展,我可没空睡懒觉。”

作者:John Pavlus | 封面:Gianluca Fallone

译者:Lu | 审校:邮狸

神经现实
我还没有学会写个人说明!
上一篇

你吸的大熊猫,可能刚从粪里滚出来

下一篇

运营20周年的《热血传奇》,用卫星把一亿玩家ID送到了太空

你也可能喜欢

评论已经被关闭。

插入图片