DeepMind 团队 CASP 夺冠:用 AlphaFold 预测蛋白质结构
但是 DeepMind 团队的最终目的并不是做游戏,他们希望用人工智能方法能帮助人类推动基本科学的进步。近日,团队发现了仅仅基于蛋白质的遗传序列来预测蛋白质的 3D 结构的方法。雷锋网
我们的系统,AlphaFold,在过去的两年里我们一直在努力研究它,它建立在多年前使用大量基因组数据预测蛋白质结构的研究基础之上。AlphaFold 产生的蛋白质的 3D 模型比之前的任何模型都精确得多,也就是在这一生物学核心挑战上取得了重大进展。
蛋白质是维持生命必不可少的复杂大分子。几乎我们身体的每一项功能——收缩肌肉、感知光线或将食物转化为能量——都可以追溯到一种或多种蛋白质以及它们如何移动和转化。制作这些蛋白质的配方,也就是基因,就编码在我们的 DNA 中。
但是仅仅根据蛋白质的基因序列来弄清蛋白质的 3D 形状是一项复杂的任务,科学家们已经为此奋斗了几十年。挑战在于,DNA 只包含有关这种蛋白质的氨基酸残基的序列的信息,这种氨基酸残基形成长链。预测这些长链是如何折叠成复杂的蛋白质 3D 结构就是所谓的「蛋白质折叠问题」。
蛋白质折叠为什么很重要?
对蛋白质折叠的理解也有助于蛋白质设计,这可以带来许多好处。例如,可以通过蛋白质设计来实现生物可降解酶,从而帮助对付诸如塑料和石油之类的污染物,帮助我们以对环境更友好的方式分解废物。事实上,研究人员已经开始对细菌进行工程改造,以分泌蛋白质,使废物可生物降解并更容易处理。
为了促进对提高预测准确性的最新方法的研究和测量进展,1994 年建立了一个名为 Community Wide Experiment on the Critical Assessment of Techniques for Protein Structure Prediction(CASP)的两年一度的全球竞赛,并已成为评估技术的金标准。
在过去的 50 年中,科学家已经能够使用实验技术,如冷冻电子显微镜、核磁共振或 X 射线晶体学,在实验室中确定蛋白质的形状,但是每种方法都依赖于大量的试验和误差,这可能需要数年时间,并且每个结构花费很多钱。这就是为什么生物学家转向人工智能方法,以替代这一漫长而费力的检测复杂蛋白质的过程。
用神经网络预测物理性质
我们训练神经网络来预测蛋白质中每对残基之间距离的独立分布。然后将这些概率组合成一个分数,以估计所构建的蛋白质结构有多精确。我们还训练了一个单独的神经网络,它使用所有距离来估计所构建的结构离正确答案有多近。
利用这些评分功能,我们能够搜索蛋白质形状,找到符合我们预测的结构。我们的第一个方法建立在结构生物学中常用的技术之上,并且用新的蛋白质片段反复替换蛋白质结构的片段。我们训练一个有生成式的神经网络来发明新的片段,这些片段被用来不断改进所提议的蛋白质结构的评分。
接下来会发生什么?
这些早期的蛋白质折叠进展的迹象,证明了人工智能在科学发现中的效用,这是非常令人兴奋的事情。尽管我们在能够对治疗疾病、管理环境等产生量化影响之前还有很多工作要做,但我们知道潜力是巨大的。我们拥有一个专注的团队,致力于研究机器学习如何推动科学进步,我们期待着看到我们的技术可以带来更多的变化。
[ 本帖最后由 tinroy172 于 2019-3-14 11:34 编辑 ]