网易首页 > 网易号 > 正文 申请入驻

模拟5亿年的进化信息,首个同时推理蛋白质序列的生物学大模型

0
分享至



编辑 | 萝卜皮

在三十亿年的自然进化历程中,现存蛋白质的形态得以形成,经历了漫长的自然筛选过程。进化如同在地质时间尺度上进行的平行实验,通过随机突变和选择机制,依据蛋白质的序列、结构与功能进行筛选。

在这里,EvolutionaryScale 的研究人员展示了在进化产生的标记上训练的语言模型可以充当进化模拟器,用于生成不同于已知蛋白质序列的功能性蛋白质。

研究人员提出了 ESM3,这是一种前沿的多模态生成语言模型,可推理蛋白质的序列、结构和功能。ESM3 可以结合其模态来遵循复杂的提示,并且对生物学对齐(biological alignment)高度敏感。

研究人员使用 ESM3 生成荧光蛋白。其中一种功能上明亮的荧光蛋白,与已知的荧光蛋白的序列差异很大(58% 同源性)。

该研究的预印版文章「Simulating 500 million years of evolution with a language model」近期将发布在bioRxiv预印平台。



自然进化是如何在超过三十亿年的时间里,雕琢出当前自然界中蛋白质的多样性的呢?

这一过程涉及无数随机突变与自然选择事件,每一个环节都严格考验着蛋白质的序列、结构及其执行的生物功能,只有最适应环境变化的蛋白质才能留存下来。

因此,现存蛋白质序列信息中实质上是蕴含着生物学变量对几十亿年漫长进化路径的影响。

EvolutionaryScale 团队中提出了一种创新方法,即利用名为 ESM3 的多模态生成语言模型,可以模拟这一宏大的进化过程。



视频链接:https://mp.weixin.qq.com/s/S_BRIJcFKuKk111Gomo7xQ

视频:ESM3 概述。(来源:公司官网)

ESM3 不仅能够理解和生成蛋白质序列,还能综合考虑蛋白质的结构与功能,成为一个强大的进化模拟工具。该模型设计有独特的几何注意力机制,能高效处理蛋白质的三维结构信息,这对于理解及预测蛋白质行为至关重要。



图示:ESM3 可以同时推理蛋白质序列、结构和功能。(来源:论文)

语言模型基于离散单元或标记进行操作。为了创建一个能够推理蛋白质的三个基本生物学特性(序列、结构和功能)的模型,研究人员必须将三维结构和功能转换为离散字母表,并构建一种将每个三维结构写成字母序列的方法。

这使得 ESM3 能够进行大规模训练,从而释放新兴的生成能力。ESM3 的词汇表将序列、结构和功能都整合在同一个语言模型中。



图示:ESM3 通过序列、结构和功能的多模态提示为 PETase 活性位点设计了一个支架。(来源:论文)

ESM3 的训练目标很简单。对于每种蛋白质,提取、标记和部分屏蔽其序列、结构和功能。ESM3 的任务是使用受自然语言处理模型启发的屏蔽语言建模目标来预测屏蔽位置。

为了完成这项任务,ESM3 必须学习深入了解进化规模数据中序列、结构和功能之间的联系。当扩展到数十亿种蛋白质和数十亿个参数时,ESM3 学会模拟进化。

ESM3 能够生成不同于现有已知蛋白质序列的功能性蛋白质。此模型的特点在于其能够理解和响应复杂的多模式提示,同时对生物学对齐有很高的敏感度。

ESM3 对生物学对齐的高度敏感,意味着它能精准地识别并遵循生物进化和功能相关的模式。通过这种对齐,模型能够更好地理解蛋白质如何根据其生物学角色和环境需求进化,从而在设计新蛋白质时,更准确地反映自然界的生物逻辑和进化约束。

它可以按照提示生成新的蛋白质。ESM3 的多模态推理能力使科学家能够以前所未有的控制程度生成新蛋白质。例如,可以提示模型结合结构、序列和功能,为 PETase 的活性位点提出潜在的支架,PETase 是一种降解聚对苯二甲酸乙二醇酯 (PET) 的酶,这是蛋白质工程师分解塑料废物的研究目标。

解决了更难的生成问题



图示:ESM3 模型在生成满足原子配位提示的蛋白质的任务上进行了评估。(来源:论文)

ESM3 解决具有挑战性的蛋白质设计任务的能力,会随着蛋白质规模的扩大而显现。其中一项任务是原子协调,即根据指定序列中距离较远但结构中距离较近的氨基酸原子位置的提示来设计蛋白质。

这衡量了模型在结构生成中实现原子级精度的能力,这对于设计功能性蛋白质至关重要。ESM3 解决这些任务的能力随着规模的扩大而提高,也就是说,ESM3 解决了更难的生成问题,而规模是其中的一个函数。

ESM3 通过使用类似于 LLM 中应用的人类反馈强化学习 (RLHF) 的对齐方法,通过反馈进一步改进。ESM3 无需接收人类的反馈,而是可以自我改进,提供有关其自身生成质量的反馈。湿实验室实验或现有实验数据的反馈也可用于使 ESM3 的生成与生物学保持一致。

跨越 5 亿年的自然进化距离

研究人员利用 ESM3 设计了一种名为 esmGFP 的新荧光蛋白,它与已知最相似的荧光蛋白序列同源性仅为 58%,这在以往的人工设计中是极为罕见的。

通过指导 ESM3 关注荧光蛋白形成和催化色素体反应所必需的序列和结构特征,模型经过一系列迭代设计,最终产生了具有明亮荧光效果的 esmGFP。



图示:esmGFP 与已知荧光蛋白比较。(来源:论文)

该蛋白不仅在序列上与已知蛋白有显著差异,而且在实验中展现出与常见荧光蛋白相似的荧光强度。这相当于跨越了超过 5 亿年的自然进化距离。

EvolutionaryScale 是一家非盈利公司。他们的使命是通过与科学界合作以及开放、安全和负责任的研究,开发人工智能来理解生物学,造福人类健康和社会。自成立以来,ESM 项目一直致力于通过代码和模型发布来开放科学,该团队承诺将继续坚持下去。

该公司成立于 2023 年 7 月已经完成 1.42 亿美元种子轮融资,并已经与亚马逊(Amazon)和英伟达(NVIDIA)公司达成合作。

ESM相关代码:https://github.com/evolutionaryscale/esm

论文链接:https://evolutionaryscale-public.s3.us-east-2.amazonaws.com/research/esm3.pdf

https://www.evolutionaryscale.ai/blog/esm3-release

https://twitter.com/ylecun/status/1805634811773571496

https://twitter.com/ylecun/status/1805581310548697360

https://x.com/ebetica/status/1805599844246884677

https://www.businesswire.com/news/home/20240625717839/en/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
俄罗斯艺术家创作的讽刺普京的艺术作品 极尽挖苦之能事

俄罗斯艺术家创作的讽刺普京的艺术作品 极尽挖苦之能事

那些看得见的老照片
2024-11-05 07:00:02
你们去过埃及的人嘴真严啊!网友:一生报喜不报忧的中国人

你们去过埃及的人嘴真严啊!网友:一生报喜不报忧的中国人

观察鉴娱
2024-11-04 11:06:32
格局!武磊:谢谢每个不喜欢我的人 很享受球迷之间的喜欢与厌恶

格局!武磊:谢谢每个不喜欢我的人 很享受球迷之间的喜欢与厌恶

念洲
2024-11-05 08:46:32
大心脏!郑钦文苦战146分钟夺年终首胜,恐怖一幕:决胜盘6-1打疯

大心脏!郑钦文苦战146分钟夺年终首胜,恐怖一幕:决胜盘6-1打疯

侃球熊弟
2024-11-04 21:44:33
造假很普遍?网友晒出中小学科技竞赛获奖名单,认为值得深入调查

造假很普遍?网友晒出中小学科技竞赛获奖名单,认为值得深入调查

可达鸭面面观
2024-11-04 18:37:54
越闹越大,传单印广西大学副院长强奸女学生,学校回应

越闹越大,传单印广西大学副院长强奸女学生,学校回应

看晓天下事
2024-11-04 19:06:06
朝鲜风暴军团全员精锐,战斗力超过瓦格纳:北约32国无一人敢迎战

朝鲜风暴军团全员精锐,战斗力超过瓦格纳:北约32国无一人敢迎战

帅先工场
2024-11-03 15:13:45
郑钦文为争议道歉:心跳特别快没办法恢复 忍了一阵子实在没忍住

郑钦文为争议道歉:心跳特别快没办法恢复 忍了一阵子实在没忍住

念洲
2024-11-05 07:05:34
中国人民银行原行长:年轻人不愿意缴社保,不是年轻人的问题!

中国人民银行原行长:年轻人不愿意缴社保,不是年轻人的问题!

巢客HOME
2024-11-04 08:45:03
华为内部论坛发相亲帖,毁了三观。加好友第一句:小姐姐“y”么

华为内部论坛发相亲帖,毁了三观。加好友第一句:小姐姐“y”么

蚂蚁大喇叭
2024-11-04 14:53:55
刘晓庆机场和“小鲜肉”依偎在一起,打扮时髦靓丽,74岁好似少女

刘晓庆机场和“小鲜肉”依偎在一起,打扮时髦靓丽,74岁好似少女

最炫时尚
2024-10-15 21:57:29
金星又一演出遭取消!南大博士呼吁彻查,网友喊话上海文旅:看你的了!

金星又一演出遭取消!南大博士呼吁彻查,网友喊话上海文旅:看你的了!

不掉线电波
2024-11-04 22:00:52
高考迎来“重大调整”,2025年将实施,家长要引起重视

高考迎来“重大调整”,2025年将实施,家长要引起重视

教育导向分享
2024-11-03 22:47:35
技不如人?神18宇航员出舱站不起来,美国55年前就能直接走路

技不如人?神18宇航员出舱站不起来,美国55年前就能直接走路

古今历史记
2024-11-04 15:26:28
杀人诛心!王楚钦把日本天才打到破防瘫倒!赛后采访让国人骄傲

杀人诛心!王楚钦把日本天才打到破防瘫倒!赛后采访让国人骄傲

嘴炮体坛
2024-11-04 22:03:10
新国标电瓶车没挡泥板遭吐槽,网友:真是又丑又不方便

新国标电瓶车没挡泥板遭吐槽,网友:真是又丑又不方便

映射生活的身影
2024-11-04 17:59:29
美国大选最后冲刺:五任总统大乱斗!首次允许合法押注,平台显示:特朗普胜选率为51%,哈里斯胜选率为49%

美国大选最后冲刺:五任总统大乱斗!首次允许合法押注,平台显示:特朗普胜选率为51%,哈里斯胜选率为49%

每日经济新闻
2024-11-04 20:11:10
李佩霞早露端倪,多张工作照片埋下伏笔:穿着风格和神态露馅了

李佩霞早露端倪,多张工作照片埋下伏笔:穿着风格和神态露馅了

李昕言温度空间
2024-11-04 10:49:10
外媒:尸检结果显示,身亡的哈马斯领导人辛瓦尔在死前三天没有吃任何东西

外媒:尸检结果显示,身亡的哈马斯领导人辛瓦尔在死前三天没有吃任何东西

环球网资讯
2024-11-04 17:52:08
江苏明确!可休1至2天

江苏明确!可休1至2天

鲁中晨报
2024-11-04 18:57:08
2024-11-05 09:36:49
ScienceAI
ScienceAI
关注人工智能与其他前沿技术
652文章数 203关注度
往期回顾 全部

科技要闻

硅谷2024最疯狂投资:押注下一任美国总统

头条要闻

16岁少年疑被骗往缅北 父亲收蹊跷信息:你儿子很安全

头条要闻

16岁少年疑被骗往缅北 父亲收蹊跷信息:你儿子很安全

体育要闻

一个想改变中国足球的日本人

娱乐要闻

周雨彤道歉:这绝不是我的初衷!

财经要闻

特朗普无牌可打

汽车要闻

轴距增加60mm还配副驾屏 一汽-大众探岳L正式下线

态度原创

家居
健康
房产
教育
旅游

家居要闻

摩登现代氛围 用色块勾勒空间

花18万治疗阿尔茨海默病,值不值?

房产要闻

刺激!大批豪宅疯狂入市,海口住宅风向彻底变了!

教育要闻

一棵永远成长着的树——小学语文主题教学三十年的探索与超越

旅游要闻

哈尔滨冰雪大世界预计将于12月中旬开园

无障碍浏览 进入关怀版