网易首页 > 网易号 > 正文 申请入驻

2024年诺贝尔化学奖:又又又双叒叕是AI?

0
分享至


作者:奶树

编辑:蝌蚪

当昨天的诺贝尔物理学奖刚刚颁给了开发了人工神经网络的AI之父杰弗里·辛顿和约翰·霍普菲尔德,大家还在暗想: 今年不会AI来了个大满贯吧? 化学奖也可能给AI预测蛋白质结构啊!

于是,不出意外地,瑞典皇家科学院10月9日宣布,2024年诺贝尔化学奖一半给了开发人工智能设计蛋白质结构的大卫·贝克(David Baker)、另一半则给了开发了人工智能预测蛋白质结构的德米斯·哈萨比斯(Demis Hassabis)和约翰·M·詹珀(John M. Jumper)。


其实在RostteFoldAlphaFold2在2021年横空出世的时候,结构生物学家、生物化学家、计算生物学家就已经知道,这项成果,肯定值得一个诺贝尔奖

蛋白质结构:困扰生物学家的难题

说起蛋白质,相信不少人其实并不陌生,甚至了解蛋白质是细胞里行使各种功能的“元件”。不仅如此,蛋白质也是组成我们身体的基本物质之一。比如说健身可以锻炼肌肉,但想要肌肉增强变大,就必须有足够的蛋白质供给才行。

餐桌上的鸡蛋、牛奶以及各种肉类都是富含蛋白质的食物,对于人类来说,蛋白质唾手可得;但是,想要得到蛋白质的结构却难于上青天


富含蛋白质的饮食 | 图源:iSlide

因为蛋白质的结构非常复杂:简单讲,氨基酸组成蛋白质,一个个氨基酸会有叫肽键的结构链接,它的连接可以形成两种不同的角度。

那现在给大家出一个简单数学题:假设有100个氨基酸组成蛋白质,那就需要99个肽键,99个肽键有两种不同角度的结构,同时不同角度还会有三种可能的稳定结构,那就是3的198次方种可能,你要是慢慢穷举,从宇宙爆炸到现在都数不完,这就是利文索尔悖论——蛋白质结构非常非常多样,没办法用穷举来算完


氨基酸组合过程中不同的二面角会产生不同的结构,因此才有利文索尔悖论这样的无穷种结构可能| 图源:Wikipedia

结构这么复杂该怎么办?生物学家最直接的想法就是观测,用不同的方法来测量:上世纪五六十年代,用的是X光衍射——把蛋白质结晶,然后打上X光,通过反射的角度可以推测蛋白质长什么样子,这个难点就是怎么把蛋白质纯化结晶出来。

另一个现在很热门的研究方法叫冷冻电镜,就是利用冷冻切片技术,加上电子显微镜直接看蛋白质结构,但缺点就是非常非常贵,太烧钱了。


冷冻电镜的基本原理 | 图源:Wikipedia

那大家猜猜这么些方法,测量了几十年了,我们分析出来多少个蛋白质结构?其实已经不少了,根据数据库记载,现在实验已经解析了18万种蛋白质

但是相对的,我们刚刚说到蛋白质是氨基酸组成的,只要测序技术测得到DNA序列,就能推导出蛋白质序列。查找数据库可以发现,现在已知的有十几亿种蛋白质序列,这和18万之间差了将近一万倍。

所以结构生物学家就很苦恼——测序太简单了,导致结构生物学远远跟不上测序的速度。


蛋白质结构解析数量变化 | 图源:Nucleic acids research, 2019.


蛋白质序列测序的速度 | 图源:www.ncbi.nlm.nih.gov/genbank/statistics/

计算预测也许可以解决问题?

所以很多开发算法的计算生物学家就想预测结构,通过算法预测肯定比做实验快很多。但是刚刚也说了利文索尔悖论,预测结构非常非常难,你要是穷举那是天文数字。

所以有很多的计算思路,比如我可以类比,实验解出来的结构我可以类比相似的序列,推测相似的序列会不会有相似的结构,这个叫同源建模;也可以拆开来类比,比完再像缝缝补补拼积木一样把结构拼出来,这个叫穿线法……但是这么多方法都有个问题:精度特别差。这就好像我想看1080P的高清视频,但是怎么调都只有马赛克高糊版,看都看不清。


做个类比的话,比如实际的蛋白结构是左图,但是预测结果往往只能得到左图的效果,很多信息都无法得知(仅作示意进行处理,实际并不仅仅是模糊,还会有很多完全不同的差别) | 图源:Wikipedia

为了促进各国科学家不断向前,从1994年开始,每两年都会举办CASP,叫蛋白质结构预测关键测试,来评估大家的算法预测准不准,来提高算法的精度。

简单来说就是从各种蛋白质序列里挑几个出来,一边让结构生物学家做实验解出一个“标准答案”,然后计算生物学家就用自己的算法来比,看看谁跟标准答案更接近。

但很遗憾,24年过去了,仍然进展很慢。


CASP官网

AI出场,势不可挡

直到2018年,一个叫AlphaFold的方法出来,得到了80分的高分,两年之后2020年AlphaFold二代打分到了90分,基本就和实验做出来的标准答案一样了。还是刚刚1080P的比喻的话,别人预测像个马赛克,但AlphaFold2预测就已经差不多1000P,和1080P基本大差不差。

这个大家也知道了,就是Deepmind公司的德米斯·哈萨比斯约翰·M·詹珀开发的人工智能方法。


AlphaFold2方法预测的精度远远超过其他算法(图a),同时预测的结果和实验结果基本吻合(图b-d)| 图源:Nature, 2021.

随后这个方法开始广泛应用到了生物学上,一发不可收拾。

一是Deepmind开发的AlphaFold2算法,在短短几个月时间里,就把几十年结构生物学家解析的没解析完的蛋白质都解了:人体98%的蛋白质都试着预测了一遍,其中三分之一能准确预测,还有一些也能大概预测一半多。同时他们声称后面几个月就把数据库扩展到一亿个蛋白质。这就比实验方法快了上万倍了。


基于AlphaFold2预测的蛋白质结构数据库

另一个生物学上的应用,是同样基于人工智能算法,由大卫·贝克开发的RoseTTAFold,它挑战的是更难的领域——怎么预测蛋白质和蛋白质相互结合,也在短时间预测了几千种蛋白质的相互结合。


RoseTTAFold的宣传图,最突出的就是对于蛋白质互作的结构预测

在AlphaFold2正式发布后只过了半年多,2022年7月,DeepMind公司的CEO,德米斯·哈萨比斯就在新闻发布会宣布:我们已经掌握了“整个蛋白质世界”(The entire protein universe)——AlphaFold马不停蹄地运转,成功完成了现有蛋白质数据库中全部2.14亿种蛋白质的结构预测。


德米斯·哈萨比斯 | 图源:Jung Yeon-Je/AFP/Getty

2.14亿种蛋白质中,有35%被评估为高度准确,虽然这个数字看起来不高,但是按照目前实验检测的水平,全部做完也就差不多这个水平——更何况,截至目前实验检测花了几十年也只测出了14万种。

仅在DeepMind公司宣布完成了“整个蛋白质世界”三个月后,2022年10月,Meta公司(原名Facebook)就拓宽了这个“蛋白质世界”的边界(‘dark matter’ of the protein universe)——他们利用自己开发的大型语言模型算法ESMFold,预测了6.17亿种来自宏基因组信息的微生物蛋白质结构。

ESMFold算法的准确度虽然略逊于AlphaFold,但它的优势在于能以60倍于AlphaFold的速度去预测短序列蛋白质的结构,这就使得它在预测结构相对简单的微生物蛋白质上有了很大的优势。


6.17亿种蛋白质结构的全览 | 图源:ESM Metagenomic Atlas

没过几天,AI又开始颠覆生物学家的认知了——创造蛋白质。

这其实是一个和蛋白质结构预测刚好相反的问题:蛋白质结构预测是从序列到结构,而创造蛋白质是要求从我们希望得到的结构,反推出合适的蛋白质序列。过去这是个计算量巨大的工作,现在AI也能完成了。


四种目前常用的设计蛋白质策略 | 图片翻译自:Nature

相比于大批量预测蛋白质结构,创造蛋白质的目的就更加明确——我们希望能创造出自然界不存在,但是对人类非常有用的蛋白质。

设计蛋白质的尝试还在不断进步和迭代,已经逐渐用到了实际应用当中。例如在RoseTTAFold的研究中,利用ProteinMPNN和RoseTTAFold方法设计出来的蛋白质,不仅在自然界完全不存在,并且大大提高了这些蛋白质结构的稳定性,预计在未来会被用作疾病治疗的抗原抗体,或者生物化学反应所需的生物酶。


蛋白质设计的过程,通过不断改变序列让蛋白质结构趋于稳定(结构的稳定基于AlphaFold预测,越红代表越不稳定,越蓝代表越稳定) | 图源:Nature

不少人可能要问了:预测蛋白质结构,到设计蛋白质,有啥用呢?

我们最开始就提到了蛋白质在我们生活无处不在,而蛋白质要发挥功能,基础是要有一定的结构。所以预测蛋白质结构,可以帮助我们更好地理解蛋白质的功能,进而去比如构建蛋白质分子药物,或者研究复杂的生物化学现象。

一个最简单的例子,比如现在我们知道新型冠状病毒的新变异奥密克戎传播力特别强,而这传播关键的刺突蛋白结构,就可以利用人工智能来预测,进而可以推测什么药物或者治疗方法可以更有效的针对奥密克戎。


使用AlphaFold预测的奥密克戎突变体的S蛋白结构

但同时,虽然说人工智能已经完成了结构生物学家很多的工作,但是这个预测仍然是不完善的:

比如有些复杂的结构,可能结构生物学家实验还没有解析出来,人工智能也就还没办法学习到,因此也预测不出来,所以很多问题仍然需要结构生物学家的深入探究;

还有很多蛋白在发挥功能的时候是一个动态变化的过程,这种时候预测的结果就不准确,还是用1080P举例的话,就是理论上是一个1080P的视频,但是人工智能在这几秒预测出来是1080P高清,那几秒预测出来却是马赛克,所以也不准确。

这些都是人工智能预测蛋白质的瑕疵,但是瑕不掩瑜,人工智能在蛋白质结构预测带给我们的惊喜实在太多了,而这项诺贝尔奖,就是计算科学在生命科学上应用的最好证明。

参考资料:

Callaway E. 'The entire protein universe': AI predicts shape of nearly every known protein[J]. Nature, 2022, 608(7921): 15-16.

Lin Z, Akin H, Rao R, et al. Evolutionary-scale prediction of atomic-level protein structure with a language model[J]. Science, 2023, 379(6637): 1123-1130.

Callaway E. Scientists are using AI to dream up revolutionary new proteins[J]. Nature, 2022.

Ferruz N, Heinzinger M, Akdel M, et al. From sequence to function through structure: deep learning for protein design[J]. Computational and Structural Biotechnology Journal, 2022.

Wicky B I M, Milles L F, Courbet A, et al. Hallucinating symmetric protein assemblies[J]. Science, 2022, 378(6615): 56-61.

Wang J, Lisanza S, Juergens D, et al. Scaffolding protein functional sites using deep learning[J]. Science, 2022, 377(6604): 387-394.

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国为什么没有成熟的家族信托?看完后我才明白,人性的丑陋

中国为什么没有成熟的家族信托?看完后我才明白,人性的丑陋

猫小狸同学
2024-10-27 15:20:02
日本大选惊天逆转!自民党失去多数细微,日本政坛格局或将重塑!

日本大选惊天逆转!自民党失去多数细微,日本政坛格局或将重塑!

国际情爆猿
2024-10-27 20:25:10
前上海首富周正毅复出做网红!表白五婚于文红,毛玉萍评论区沦陷

前上海首富周正毅复出做网红!表白五婚于文红,毛玉萍评论区沦陷

我是娱乐哥
2024-10-27 19:22:26
美国彻底不顾股市规则了,和我们杠上了,有这几个实事:

美国彻底不顾股市规则了,和我们杠上了,有这几个实事:

现代春秋
2024-10-27 23:54:56
孙子举报爷爷床头柜放罂粟壳被颁奖状?如果是我儿子,我会使劲揍一顿

孙子举报爷爷床头柜放罂粟壳被颁奖状?如果是我儿子,我会使劲揍一顿

金水路7号站
2024-10-27 08:05:41
老婆宁可离婚也不辞职伺候我妈,五年后我找她,她:好马不吃回头

老婆宁可离婚也不辞职伺候我妈,五年后我找她,她:好马不吃回头

娱乐洞察点点
2024-10-27 19:25:46
男孩被同学打成重伤,智力倒退成幼儿!打人者因未满14岁,未受行政、刑事处罚

男孩被同学打成重伤,智力倒退成幼儿!打人者因未满14岁,未受行政、刑事处罚

鲁中晨报
2024-10-27 08:07:14
特朗普称,胜选后将只有男女两个性别,网友:他还是太正常了

特朗普称,胜选后将只有男女两个性别,网友:他还是太正常了

看晓天下事
2024-10-27 14:52:21
她赴英留学,却与上千外国男子拍爱情动作片,父母与她断绝关系

她赴英留学,却与上千外国男子拍爱情动作片,父母与她断绝关系

阿胡
2024-10-23 12:37:41
李嘉诚:世界上的好东西都是抢来的,只有愚蠢的人才坐等分配

李嘉诚:世界上的好东西都是抢来的,只有愚蠢的人才坐等分配

清风拂心
2024-10-26 14:11:53
日本迎历史性时刻!日本第50届众议院选举开始投票 选举结果预计在28日凌晨揭晓 知名投行预警:“可能暴跌5%”

日本迎历史性时刻!日本第50届众议院选举开始投票 选举结果预计在28日凌晨揭晓 知名投行预警:“可能暴跌5%”

每日经济新闻
2024-10-27 20:18:44
拆迁全面停止?国家动真格,2025年,房龄20年老房子统统这样处理

拆迁全面停止?国家动真格,2025年,房龄20年老房子统统这样处理

奇思妙想草叶君
2024-10-26 21:19:17
上海一民营妇产科医院将停业,院方回应退款事宜

上海一民营妇产科医院将停业,院方回应退款事宜

澎湃新闻
2024-10-26 18:30:28
马莱莱错失压哨绝杀!或成丢冠罪人,媒体人:球迷的心彻底死了

马莱莱错失压哨绝杀!或成丢冠罪人,媒体人:球迷的心彻底死了

奥拜尔
2024-10-27 17:53:28
翁帆离婚,一语惊人!杨振宁万万没想到,翁帆的内心会如此执着

翁帆离婚,一语惊人!杨振宁万万没想到,翁帆的内心会如此执着

陈二建
2024-09-06 17:25:29
越扒越有!曝小米SU7车主家人大闹,已找到群主,曝炸裂聊天记录

越扒越有!曝小米SU7车主家人大闹,已找到群主,曝炸裂聊天记录

裕丰娱间说
2024-10-26 17:08:03
湖南冷水江两高中生因强奸罪被判无期,入狱后坚称无罪拒绝减刑

湖南冷水江两高中生因强奸罪被判无期,入狱后坚称无罪拒绝减刑

澎湃新闻
2024-10-27 16:26:12
太意外!勒布伦4-0林诗栋,横扫国乒未来一哥,与张本智和争冠

太意外!勒布伦4-0林诗栋,横扫国乒未来一哥,与张本智和争冠

梦与体育
2024-10-27 21:57:32
2名女子穿内衣内裤游泳,被小男孩趁机揩油,关键不能对他怎么样

2名女子穿内衣内裤游泳,被小男孩趁机揩油,关键不能对他怎么样

唐小糖说情感
2024-09-05 11:50:34
退休后,为什么最好不要跟小区的人打交道?看完这3点你就明白了

退休后,为什么最好不要跟小区的人打交道?看完这3点你就明白了

娱乐洞察点点
2024-10-27 22:28:58
2024-10-28 06:30:44
biokiwi
biokiwi
用生命科学的角度看世界!
125文章数 566关注度
往期回顾 全部

科技要闻

阿里同意30亿元和解!但否认任何指控!

头条要闻

大学生排百米长队吃"浙江锅盔" 背后故事令人泪目

头条要闻

大学生排百米长队吃"浙江锅盔" 背后故事令人泪目

体育要闻

这个"不喜欢足球"的法国国脚 改打篮球了

娱乐要闻

黄磊当众自嘲厨艺,何炅现身捧场

财经要闻

63.5亿被冻结 涉及11个人!最新通报来了

汽车要闻

15万级的插混方盒子 试驾捷途山海T1

态度原创

游戏
教育
本地
艺术
公开课

魔兽怀旧服:官方强势回应!版本不会加速,TOC正常时间开放

教育要闻

1979年,邓小平同志在南海边画下一个圈,哪四大特区应运而生?

本地新闻

秋颜悦色|种草五花山色 赴一场秋天的童话

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

公开课

TED|如何通过讲故事编织文化传承

无障碍浏览 进入关怀版