网易首页 > 网易号 > 正文 申请入驻

热点关注丨入选ICML!麻省理工团队基于AlphaFold实现新突破,揭示蛋白质动态多样性

0
分享至

转自HyperAI

作者 田小幺

编辑 李宝珠

麻省理工学院的研究团队重新利用 AlphaFold 和 ESMFold 等高精度的单态预测器,并在自定义流匹配 (Flow Matching) 框架下对其进行微调,以获得序列条件的蛋白质结构生成模型,称为 AlphaFLOW 和 ESMFLOW。

作为生物体的重要组成部分,蛋白质具有不同状态,基于集体运动或无序波动的不同结构组合,采用复杂的三维结构,来执行丰富的生物功能,例如,蛋白质构象变化对转运体、通道和酶的功能至关重要,而平衡组合的特性有助于控制分子相互作用的强度和选择性。

近年来,AlphaFold 等深度学习方法在蛋白质的单态建模上取得了巨大成功,却无法解释构象异质性。所以,对于结构生物学家而言,如何在保障单一结构准确预测的同时,又能揭示潜在结构组合,是一项亟待突破的难题。

近期,来自麻省理工学院的研究团队结合了 AlphaFold 和 ESMFold 的新型采样方法,通过流匹配 (Flow matching) 技术,提供了一种全新的视角来观察和理解蛋白质的构象空间。

该研究在两个不同的场景中展示了流匹配变体 AlphaFlow 和 ESMFlow 的性能,模型最终在 PDB 上微调,并在 ATLAS 数据集上进一步训练,均显示出了卓越性能,不仅在预测构象柔韧性和原子位置分布建模方面,超越了传统的 MSA 基线,而且在复制高阶群观测方面也取得了显著的进步。

相关研究以「AlphaFold Meets Flow Matching for Generating Protein Ensembles」为题,已入选 AI 领域顶级学术会议 ICML 2024。


论文地址:

https://openreview.net/forum?id=rs8Sh2UASt

数据集:基于 PDB 与 ATLAS 两大数据集,保证实验结果的公允性

众所周知,AlphaFold 是在 PDB 中的结构基础上,以端到端的方式开发和训练的,而 ESMFold 使用了来自蛋白质语言模型 (PLM) 的嵌入作为输入。因此,该研究主要采用的是 PDB 数据集和 MD 数据集。


首先,为了从 PDB 中构建结构异质性的蛋白质测试集,该研究使用 SIFTS 注释数据库,及其从 PDB 链到 UniProt 参考序列的残基级映射,将每个已沉积的链与一个片段相关联。随后,该研究基于 0.75 的 Jaccard 相似性阈值完全连接聚类的所有片段,将每个得到的聚类视为一个独特的蛋白质,从而产生了 75,000 个蛋白质。

此外,该研究还收集了:

* AlphaFold 训练截止日期前没有提交链条 (chains),但在截止日期后沉积得到 2-30 条链条的蛋白质;

* 长度在 256–768 个残基之间的蛋白质;

* 当链聚集的阈值为 0.85 对称 lDDT-Cα 和完全连接时,至少有 2 个结构聚类的蛋白质。

最终得到了由 2,843 条链表示的 563 个蛋白质,研究人员抽取了由 500 条链表示的 100 个蛋白质形成测试集。

其次,研究人员基于 MD 数据集构建了 ATLAS 数据集,后者由基于 ECOD 域分类法选择的 1,390 个蛋白质组成。对于每种蛋白质,数据集提供了长度为 100ns 的 3 次重复模拟,每次模拟包含 10,000 个帧。为了在这些轨迹上进行训练和验证,该研究首先使用提供的序列和 ColabFold MMSeqs2 管道为所有 1,390 个 ATLAS 条目生成 MSA。

随后,研究人员从训练管道中随机抽取 300 个构象,分别将 2018 年 5 月 1 日和 2019 年 5 月 1 日作为训练和验证截止日期,最终获得了 1265/39/82 个集合的训练集、验证集和测试集。


PDB 测试集和 ATLAS 测试集序列的长度直方图

模型构建:将 AlphaFold 作为去噪模型,对蛋白质集合进行流匹配

考虑到重新开发与 AlphaFold 具有同等精度和泛化能力的分布模型,具有相当大的挑战,该研究利用生成模型的最新概念进展,将 AlphaFold 作为生成模型几乎直接复用。


作为去噪模型的 AlphaFold

截至目前,从文本到图像的典型扩散模型架构中,几乎都采用的是对以文本提示 s 为条件的图像 x 的条件分布 p(x | s) 进行建模。这些模型的核心是一个去噪神经网络,它通过接收有噪声的图像以及文本提示,从而预测生成干净的图像。

基于这些条件,此类模型通常采用简单的均方误差 (MSE) 目标进行训练。类似地,一个通过类似回归的损失函数(如 AlphaFold 或 ESMFold)训练的蛋白质结构预测器,只需提供额外的嘈杂结构输入,即可转换为去噪模型。通过这些架构调整,该研究可将 AlphaFold 和 ESMFold 进一步插入到任何基于迭代去噪的生成建模框架中。

该研究认为,流匹配生成框架的设计相当于选择了一个条件概率路径 pt(x | x1)及其对应的向量场 ut(x | x1)。因此,该研究通过从 q(x0) 中采样噪声 x0,并与数据点 x1 进行线性插值来定义条件概率路径,进而定义了一个重参数化的神经网络 x1(x, t; θ) ,从而将 AlphaFold 架构用作去噪模型。

为了将流匹配应用于蛋白质结构,该研究还通过其 β-carbons 的 3D 坐标 (α-carbon for glycine) 来描述结构:x ∈ R^N×3。这也确保了神经网络的输入始终是聚合物般的、物理上合理的三维结构。

由于流匹配框架涉及定义 (difining) 和反转 (reversing) 噪声过程,因此它与蛋白质结构的谐波扩散具有许多相似之处,两者都收敛于相同的先验分布。然而,作为一个更通用的框架,流匹配提供了 2 个主要优势:

首先,谐波扩散仅在无限时间限制下收敛到先验分布,且收敛速度取决于数据维度,即蛋白质大小。这导致在仅对相对较小尺寸的裁剪进行训练时,会出现推理时分布偏移。

其次,流匹配提供了一种简单的方法来处理 PDB 中非常常见的缺失残基,只需省略即可。相比之下,谐波扩散会在原子位置之间产生依赖关系,因此需要对缺失的残基进行数据插补。


AlphaFLOW / ESMFLOW 概述

最终,该研究基于流程匹配框架在 PDB 上微调了 AlphaFold 和 ESMFold 的所有权重,所使用 AlphaFold 和 ESMFold 的训练截止日期分别为 2018 年 5 月 1 日和 2020 年 5 月 1 日。在这个阶段的训练结束时,该研究得到了 AlphaFold 和 ESMFold 的流匹配变体,并称之为 AlphaFLOW 和 ESMFLOW。

为了评估从 MD 集合中进行学习的能力,该研究进一步在包含全原子 MD 模拟的 ATLAS 数据集上对 2 个模型进行了微调。在分别进行了 4.3 万个和 2.7 万个额外的示例训练后,该研究获得了 MD 专用的模型变体——AlphaFLOW-MD 和 ESMFLOW-MD。

实验结果:性能超越传统,在结构生物学领域具有广泛应用前景

研究人员首先评估了 AlphaFLOW 和 ESMFLOW 在 PDB 中沉积的蛋白质多样构象的能力。

为此,该研究构建了一个测试集,其中包含 100 个在 AlphaFold 训练截止日期(2018 年 5 月 1 日)后沉积的、具有多条链和构象异质性证据的蛋白质,分别针对于精度、召回率、多样性 3 大指标进行了评估。


对所有基准方法的 PDB 曲线的评估

结果表示,AlphaFLOW 与 MSA 的二次采样 (subsampling) 类似,都以牺牲精度为代价增加了预测的多样性,但相对于 MSA 的二次采样,AlphaFLOW 的变体追踪到了显著更优的 Pareto 前沿。

在精度和召回率方面,AlphaFLOW 表现出了与 MSA 二次采样非常相似的行为。令人有些惊讶的是,这两种方法都不能显著提高相对于基准 AlphaFold 的总体召回率。

总体而言,与 AlphaFold 系列方法相比,ESMFold 和 ESMFLOW 的精度相对更低。然而,ESMFLOW 能够相对于基线 ESMFold 注入大量多样性,并在几乎不牺牲精度的情况下提高召回率。


另外,该研究的 RMWD 分析表明,AlphaFlow 在预测原子平均位置方面略优于 AlphaFold,并且在建模方差方面明显优于 MSA 二次采样。


MD 评估的可视化结果

该研究还进一步评估了 AlphaFLOW 和 ESMFLOW,为 ATLAS 数据库中的 82 个蛋白质测试集生成代理 MD 集合的能力。该研究使用每种方法分别采样,并通过一系列评估来检查采样样本与 MD 群体的相似性。

结果表明,AlphaFLOW-MD 在相似性方面得到了显著改善,远远超过了 MSA 二次采样的性能。


AlphaFLOW 的 MD 复制模拟效率

由于 MD 被视为真实值,但运行到收敛状态很昂贵。因此,该研究进一步分析了在等效的有限计算预算下,例如以 GPU 小时为单位,AlphaFLOW 是否能提供更好的结果。为此,该研究减少了从 AlphaFLOW 中抽取的样本数量(从 250 个大幅减少到了 4 个),并且缩短了 MD 轨迹的长度(从 100ns 调整为 160ps)。

结果表明,AlphaFLOW 集合的质量仍然保持不变,但 MD 轨迹需要更长的时间才能达到或超过相同的质量水平。

蛋白质通用预训练模型三足鼎立,结构生物学领域充满活力

在过去几年,蛋白质与 AI 不断碰撞出全新火花,目前蛋白质的通用预训练已经形成三足鼎立的新局面,即 DeepMind Alphafold 系列、David Baker 的 RoseTTAFold 系列,以及 Meta ESM 系列。基于这三大模型,相关的科研成果已经开始井喷。仅在 2024 年上半年,就有多篇研究成果登上 Nature、Science 等顶级期刊。

在 2024 年 3 月,来自北卡罗来纳大学医学院、加州大学旧金山分校、斯坦福大学和哈佛大学的研究人员在 Science 上发表了一项研究证实,AlphaFold2 预测结构可以指导未来的药物发现。研究小组发现,AlphaFold2 在结构生物学、蛋白质设计、相互作用、靶标预测、功能预测和生物机制等方面表现出显著的实用性,能够通过筛选数十亿种化合物并通过将文库与蛋白质结构进行匹配来寻找潜在的新药。

2024 年 5 月,Google DeepMind 团队在 Nature 上重磅发布 AlphaFold 3 ,将技术扩展到蛋白质折叠之外,能以前所未有的精度准确预测蛋白质、DNA、RNA、配体等生命分子的结构及相互作用。这意味着,AlphaFold 3 将进一步加速药物设计和基因组研究,开启人工智能细胞生物学的新时代。

借由 AlphaFold 3 的发布,Alphafold 系列也终于构建起全原子的基座。与之相似,RoseTTAFold 系列也在今年上半年成功发布 RoseTTAFold All-Atom,实现了对于蛋白质共价修饰以及多个核酸链和小分子组装进行合理预测的能力。

在 Alphafold3 与 RoseTTAFold All-Atom 的帮助下,研究人员正在充分发挥想象能力。例如,2024 年 6 月,一个国际研究团队在 Nature Biotechnology 上发表了一篇论文,展示了如何利用 AlphaFold 3 和 RoseTTAFold All-Atom 结合的策略,成功设计出一种新型的蛋白质支架,这种支架可以更有效地将药物直接输送到病变细胞,从而提高治疗效果并减少副作用。这一发现标志着 AI 在精准医疗领域的应用迈出了坚实的一步。

遗憾的是,2023 年 8 月,Meta 解散 ESMFold 团队,转而全力推动 AI 商业化。但针对于 ESM 系列的研究并没有停止脚步。例如, 该模型在蛋白质语言建模领域取得了重要进展,提供了一套整合多尺度信息的统一建模方案。值得注意的是,它是首个能同时处理氨基酸信息和原子信息的蛋白质预训练语言模型。

由此可见,在 Alphafold 系列、RoseTTAFold 系列、ESM 系列并驾齐驱的新时代,AI 与蛋白质研究的结合将更加紧密,不仅加速了我们对蛋白质结构和功能的认知,也为疾病治疗、药物开发和生物技术应用带来了革命性的变革。在 AI 技术带来的跨越式发展下,结构生物学领域正在变得更加充满活力,一个属于生物医药领域的新篇章正在徐徐展开。

【免责声明】本公众号发布的内容仅供学习交流使用,内容版权归原作者所有。如有侵犯您的权益,请及时与我们联系,我们将于第一时间删除内容。内容为作者个人观点,不代表本公众号立场和对其真实性负责。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
真主党宣布胜利

真主党宣布胜利

那山星火
2024-11-29 08:31:47
44岁张大千收了16岁女孩学画,没多久,女孩说:师傅,我怀孕了

44岁张大千收了16岁女孩学画,没多久,女孩说:师傅,我怀孕了

坦然风云
2024-11-30 13:30:39
抗美援朝,志愿军共有三个师被撤销番号,师长回国后结局如何?

抗美援朝,志愿军共有三个师被撤销番号,师长回国后结局如何?

那年的春夏
2024-11-21 23:04:33
6260万,重签勇士!给金州吃下了定心丸,但你不该承受如此大压力

6260万,重签勇士!给金州吃下了定心丸,但你不该承受如此大压力

呆哥聊球
2024-12-01 18:53:05
中国音乐学院院长李心草:一生最爱3个女人,父亲不是李德伦

中国音乐学院院长李心草:一生最爱3个女人,父亲不是李德伦

细品名人
2024-12-02 07:13:42
油价一夜“倾泻”,全国92号汽油今年“次新低”后,12月4日调价

油价一夜“倾泻”,全国92号汽油今年“次新低”后,12月4日调价

猪友巴巴
2024-12-01 14:36:07
64岁老阿姨,穿“短羽绒服+鲨鱼裤”去健身,被夸显年轻、身材好

64岁老阿姨,穿“短羽绒服+鲨鱼裤”去健身,被夸显年轻、身材好

疯说时尚
2024-12-02 09:18:37
作品已禁播,他被AI换脸,彻底凉凉

作品已禁播,他被AI换脸,彻底凉凉

银河卧谈会
2024-12-01 20:42:00
“猴哥说车”迎来全网骂潮:一步错步步错,3个雷区他全部踩中了

“猴哥说车”迎来全网骂潮:一步错步步错,3个雷区他全部踩中了

聚合大娱
2024-11-26 11:50:32
反转!优衣库拒用新疆棉后续:日本网友态度曝光,多位博主曝实情

反转!优衣库拒用新疆棉后续:日本网友态度曝光,多位博主曝实情

派大星纪录片
2024-12-01 09:36:41
德国称确认两名破坏“北溪”管道的人员

德国称确认两名破坏“北溪”管道的人员

每日经济新闻
2024-12-01 07:21:03
英锦赛收官奖金排名:小特夺冠张安达37万第5 丁俊晖第9白雨露第33

英锦赛收官奖金排名:小特夺冠张安达37万第5 丁俊晖第9白雨露第33

秋眼体育
2024-12-02 06:54:31
燃油汽车的第一张多米诺骨牌出现了:日产汽车发出倒闭风险警示

燃油汽车的第一张多米诺骨牌出现了:日产汽车发出倒闭风险警示

阿凫爱吐槽
2024-11-30 09:42:29
范冰冰“女王”造型征服迪拜!穿金色斗篷礼服气场全开,霸气侧漏

范冰冰“女王”造型征服迪拜!穿金色斗篷礼服气场全开,霸气侧漏

南城无双
2024-12-02 00:13:03
唐嫣罗晋难得合体陪4岁女儿去乐园,小公主遗传妈妈大额头好可爱

唐嫣罗晋难得合体陪4岁女儿去乐园,小公主遗传妈妈大额头好可爱

八卦宝宝
2024-12-01 19:42:51
全红婵弟弟妹妹退役,看出其成功秘诀,拥有天赋是远远不够的

全红婵弟弟妹妹退役,看出其成功秘诀,拥有天赋是远远不够的

娱贝勒
2024-12-01 19:38:25
因祸得福?吴柳芳一夜涨粉150万,钱途光明 网友攻击管晨辰:丑陋

因祸得福?吴柳芳一夜涨粉150万,钱途光明 网友攻击管晨辰:丑陋

风过乡
2024-12-02 07:40:45
那些年用过质感最好的8款手机,用过三款的就是大神!

那些年用过质感最好的8款手机,用过三款的就是大神!

小柱解说游戏
2024-12-01 22:04:57
被曝分手后,黄晓明首发长文“悼念感情”引评论区安慰!

被曝分手后,黄晓明首发长文“悼念感情”引评论区安慰!

默默有话说
2024-12-01 14:04:02
泼天流量!吴柳芳账号解禁,亿万网友力挺,刚3小时粉丝又增100万

泼天流量!吴柳芳账号解禁,亿万网友力挺,刚3小时粉丝又增100万

球盲百小易
2024-12-02 01:30:29
2024-12-02 10:31:00
中国人工智能学会
中国人工智能学会
中国人工智能学会网易官方账号
3009文章数 1462关注度
往期回顾 全部

科技要闻

11月成绩单:小鹏首破3万,蔚来小米破2万

头条要闻

夫妻进城务工十年后回村种地 妻子被卷入收割机去世

头条要闻

夫妻进城务工十年后回村种地 妻子被卷入收割机去世

体育要闻

勇士四连败,到底是谁的错?

娱乐要闻

黄晓明姥姥去世,祖孙俩手牵手好温馨

财经要闻

400人获刑!诈骗集团后台控制"股票"涨跌

汽车要闻

科技是中国豪车梦的支点 腾势Z9走心试驾体验

态度原创

房产
亲子
家居
艺术
教育

房产要闻

一燃再燃!又卖2亿!白鹅潭顶流,引爆全城!

亲子要闻

太可爱了!迷迷糊糊的小眼睛,看到麻麻了一下子就亮起来了

家居要闻

现代设计感 温馨两居室

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

教育要闻

求向量模值的一道高考数学题,首先一定要求他的平方!

无障碍浏览 进入关怀版