超越AlphaFold:AI擅长创造新蛋白质
在过去两年中,机器学习彻底改变了蛋白质结构预测。机器学习可用于比以前更准确、更快速地创建蛋白质分子。因此,科学家们希望这一进步将带来许多新的疫苗、治疗方法、碳捕获工具和可持续生物材料。
蛋白质在生物体内的重要作用
其中,华盛顿大学医学院生物化学教授、2021年生命科学突破奖获得者David Baker教授曾经说过:蛋白质作为整个生物学的基础,但是目前在每种植物、动物和微生物中发现的所有蛋白质都远不到可能的蛋白质的百分之一。因此,如果利用一些新的软件工具,研究人员能够为医学、能源和技术方面的长期挑战找到合适的解决方案。
图:David Baker在自己的实验室
蛋白质通常被称为 “生命的基石”,这是因为它们对于所有生物的结构和功能都是必不可少的。蛋白质几乎参与了细胞内发生的每一个过程,包括生长、分裂和修复。其中,蛋白质由称为氨基酸的长链化学物质所组成。蛋白质中的氨基酸序列决定了它的三维形状。而这种复杂的形状对于蛋白质的功能至关重要。
利用ProteinMPNN软件工具设计的蛋白质更有可能按预期折叠
近年来,包括AlphaFold和RoseTTAFold在内的强大的机器学习算法已经被训练到仅根据天然蛋白质的氨基酸序列就可以预测其详细形状。机器学习是一种人工智能,它允许计算机在没有明确编程的情况下从数据中进行学习。因此,机器学习可用于对人类难以理解的复杂科学问题进行建模。为了超越自然界中发现的蛋白质,David Baker教授的团队成员将蛋白质设计的挑战分解为三个部分,并为每个部分使用新的软件解决方案。
利用深度学习构建蛋白质功能位点
首先,必须生成新的蛋白质形状。蛋白质的结合和催化功能通常由整个蛋白质结构保持的少量功能残基所介导。华盛顿大学David Baker教授团队发现了一种了用于搭建此类功能位点的深度学习方法,而无需预先指定支架的折叠或二级结构。第一种方法,“受约束的幻觉”,优化序列,使其预测结构包含所需的功能位点。第二种方法,“修复”,从功能位点开始,填充额外的序列和结构,通过经过专门训练的RoseTTAFold网络在单次前向传递中创建可行的蛋白质支架。 研究者使用这两种方法来设计候选免疫原、受体陷阱、金属蛋白、酶和蛋白质结合蛋白,并结合使用计算机和实验测试来验证设计。相关工作以“Scaffolding protein functional sites using deep learning”发表7月21日的《 Science》。
该支架功能位点方法除了所需功能位点的结构和序列之外不需要任何输入。并且,该方法与以前的方法有所不同,不需要指定支架的二级结构或拓扑结构,并且可以同时生成序列和结构。目前,生成对抗网络和变分自动编码器已被用于生成特定折叠家族的蛋白质骨架,而该方法利用RoseTTAFold在整个PDB上的训练将会生成几乎无限多样性的新结构,并支持任何所需的功能残基群。研究者们的“激活最大化”幻觉方法通过利用其关键优势、使用针对特定问题的任意损失函数和设计任意长度序列而无需重新训练的能力,扩展了该领域的相关工作。由于其速度和通用性,该修复方法从给定的功能位点扩展以生成连贯的序列结构对的能力应该在蛋白质设计中得到广泛的应用。随着更准确的蛋白质结构、界面和小分子结合预测网络的开发,这两种方法单独以及两者的结合应该会大大提高效率。
蛋白质功能设计方法
利用深度学习实现蛋白序列设计
虽然深度学习已经彻底改变了蛋白质结构预测,但几乎所有以实验为特征的从头蛋白质设计都是使用基于物理的方法(如Rosetta)生成的。因此,David Baker教授团队为了加快这一过程,开发了一种基于深度学习的蛋白质序列设计方法 ProteinMPNN,它在计算机和实验测试中均具有出色的性能。在天然蛋白质骨架上,ProteinMPNN的序列恢复率为52.4%,而Rosetta为32.9%。不同位置的氨基酸序列可以在单链或多链之间偶联,从而能够应用于当前广泛的蛋白质设计挑战。 研究者使用X射线晶体学、cryoEM和功能研究通过挽救以前失败的设计(例如,使用Rosetta或AlphaFold制作的蛋白质单体、环状同源寡聚体、四面体纳米颗粒和靶结合蛋白)证明了ProteinMPNN的广泛实用性和高精度。相关工作以“Robust deep learning-based protein sequence design using ProteinMPNN”发表在9月15日的《 Science》。
ProteinMPNN解决序列设计问题的时间比Rosetta等基于物理的方法所需的时间少,该方法可进行大规模侧链包装计算,在天然骨架上实现更高的蛋白质序列恢复(52.4%对32.9%),并挽救了以前失败的使用Rosetta或AlphaFold设计的蛋白质单体、组件和蛋白质-蛋白质界面。它的结果优于以前的工具,并且该软件不需要专家定制即可运行。
ProteinMPNN架构
利用深度网络幻觉来生成广泛的对称蛋白质同源寡聚体
蛋白质设计研究所项目科学家Justas Dauparas曾说过“如果你有大量的数据,神经网络很容易训练,但对于蛋白质而言,我们没有想要的那么多的例子。因此,我们必须深入研究并确定这些分子中哪些特征是最重要的。这是一段试错的过程。”
因此,为了解决上述问题。深度学习生成方法为广泛探索天然蛋白质序列和结构之外的蛋白质结构空间提供了机会。因此,David Baker教授团队使用深度网络幻觉法,只给定原聚体的数量和长度的规格,就可以生成广泛的对称蛋白同源寡聚体。7种设计的晶体结构与计算模型非常接近(中位数RMSD: 0.6 Å),3种10纳米环的cryoEM结构具有高达1550个残基和C33对称性;所有这些都与之前解决的结构有很大不同。该项研究结果突出了利用深度学习可以生成的新蛋白质结构的丰富多样性,并为设计越来越复杂的纳米机器和生物材料组件铺平了道路。相关工作以“Hallucinating symmetric protein assemblies”发表在9月15日的《 Science》。
该团队使用由Alphabet的DeepMind开发的工具AlphaFold来独立评估他们提出的氨基酸序列是否可能折叠成预期的形状。Justas Dauparas解释说“预测蛋白质结构的软件是解决方案的一部分,但它本身无法提出任何新的东西”。David Baker教授进一步补充称“ProteinMPNN之于蛋白质设计,就像AlphaFold之于蛋白质结构预测”。在该研究中,David Baker教授课题组证实,新机器学习工具的组合可以可靠地生成在实验室中起作用的新蛋白质。研究者发现使用ProteinMPNN制造的蛋白质更有可能按预期折叠,研究者可以使用这些方法创建非常复杂的蛋白质组装体。
幻化对称的蛋白质组装体
总结:以上成果证明,这是蛋白质设计中机器学习的开端。在接下来的几个月里,研究者将通过努力改进这些工具,以创造出更具动态性和功能性的蛋白质。
原文链接:
https://phys.org/news/2022-09-alphafold-ai-excels-proteins.html
来源:高分子科学前沿
声明:仅代表作者个人观点,作者水平有限,如有不科学之处,请在下方留言指正!
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.