网易首页 > 网易号 > 正文 申请入驻

大语言模型如何助力药物开发? 哈佛 George Church Lab 最新综述

0
分享至

文章链接: https://arxiv.org/abs/2409.04481

大语言模型因其展现出类人般的推理、工具使用和问题解决能力而备受瞩目,此外,它在化学、生物学等专业领域也展现出深厚的理解能力,进一步提升了其应用价值。本文阐述大语言模型可以在理解疾病机制、药物发现和临床试验三个药物发现的基本阶段展现出重要潜力。

首先,本文展示了过去、现在的药物研发与临床试验中的过程并展现了大语言模型(LLMs)未来在这些阶段的潜在应用。

理解疾病机制:

  • 过去:依赖手动文献和专利搜索。

  • 现在:除了手动文献搜索,还加入了功能基因组学分析。

  • 未来:LLMs将自动识别靶基因,发现生化和药理学原理。

药物发现:

  • 过去:通过天然产物的发现和随机筛选进行药物研发。

  • 现在:使用虚拟筛选和基于结构的手动药物设计。

  • 未来:LLMs将设计新型治疗方法,自动生成药物设计,并自动进行实验。

临床试验:

  • 过去和现在:手动匹配病人与试验、设计临床试验以及收集临床试验数据。

  • 未来:LLMs将自动进行病人匹配、试验设计,并预测试验结果。

1

大语言模型的分类

本文将大语言模型分为两类: 科学大语言模型(Scientific Language Model)和一般大语言模型(General Language Model)。两者的对比和差异如下:

科学大语言模型

  • 领域:涉及化学(分子)、生物学(蛋白质、基因)等专门领域。

  • 训练数据:包括化学中的SMILES、IUPAC序列,蛋白质的FASTA序列,基因的FASTA序列等。

  • 任务解决能力:能够处理分子、蛋白质、基因相关的任务,如逆合成规划、反应预测、分子设计、蛋白质结构预测、基因网络分析等。

  • 工具型使用:作为工具,通过获取任务所需信息,生成预测结果(如蛋白质-配体结合亲和力评分)。

通用语言模型

  • 领域:基于更广泛的文本数据,如书籍、互联网、社交媒体等。

  • 训练数据:包括书籍、问答网站、社交媒体、百科等来源。

  • 人类式能力:具备理解背景知识、推理、角色扮演(如化学家)、规划、使用工具和信息检索等能力。

  • 助手型使用:可以像助手一样与用户互动,回答问题、解释复杂概念并帮助用户完成任务。

2

大语言模型在理解疾病机制中的作用

这张图表分为两部分,左边展示了疾病研究的关键流程,右边展示了大语言模型(LLM)在这些流程中的具体应用领域。

左侧:疾病研究流程

  1. 临床分型(Clinical Sub-typing)

  • 通过多组学数据的收集(如基因、蛋白质、代谢组等),结合临床分析和伦理法规要求,对疾病进行分型。目的是更好地理解疾病的异质性,从而为后续的靶点发现打下基础。

靶点-疾病关联(Target-Disease Linkage)

  • 通过基因表达谱分析、多通路分析等方法,结合实验工具(如CRISPR-Cas9、RNA干扰等),寻找并验证疾病与潜在治疗靶点的关联性。这一步对于药物开发至关重要。

靶点验证(Target Validation)

  • 验证靶点的安全性与可行性,评估其药物开发潜力。涉及靶点安全、药物可及性(Drugability)和测试可行性。靶点的作用机制(如激动剂、拮抗剂、调节剂等)也会在这一阶段进行确认,从而选择合适的治疗方式,如蛋白质、小分子或RNA治疗。

右侧:LLM的应用领域
  1. 基因组分析(Genomics Analysis)

  • LLM可以帮助预测基因变异、启动子区域、转录因子结合位点等信息,从而帮助科研人员在基因组层面理解疾病机制。

转录组分析(Transcriptomics Analysis)

  • LLM可以处理mRNA表达分析、基因网络分析等复杂数据,辅助研究人员挖掘重要的转录组信息,了解基因的调控模式和表达差异。

蛋白质靶点分析(Protein Target Analysis)

  • LLM能够预测蛋白质结构、功能注释、蛋白质间相互作用以及配体结合位点等信息,帮助科研人员选择潜在的药物靶点。

疾病通路分析(Disease Pathway Analysis)

  • LLM在疾病通路分析中能够分析蛋白质与疾病之间的复杂相互作用,识别潜在的治疗靶点和干预途径,从而加速药物开发过程。

辅助功能(Assistance)

  • LLM还可以提供知识发现、信息检索等辅助功能,帮助科研人员快速获取相关信息,加快研究进程。

3

大语言模型在药物发现中的作用

这张图分为两部分,左边展示了药物发现的过程,右边展示了大语言模型(LLM)在药物发现各阶段的具体应用。

左侧:药物发现过程

  1. 药物类型选择

  • 科学家可以选择不同的治疗方式,包括蛋白质小分子药物RNA。该图以小分子药物为例,展示了它们在药物开发中的应用。

药物发现流程

  • 命中识别(Hit Identification):通过筛选大量化合物,找到与靶点有初步反应的分子。

  • 命中到先导(Hit to Lead):进一步优化这些初步命中分子,以提高其与靶点的结合能力。

  • 先导优化(Lead Optimization):对先导化合物进行结构改造,增强其疗效和药物特性。

  • 临床前研究(Pre-clinical):在进入临床试验前,评估候选药物的安全性和有效性。

  • 药物候选物(Drug Candidates):通过上述流程,产生最终可供临床试验的候选药物。

右侧:LLM的应用领域
  1. 化学领域(Chemistry)

  • LLM可以用于化学机器人自动化合成、逆合成规划和反应预测等任务,帮助化学家加速化合物的发现。

计算机模拟(In Silico Simulation)

  • LLM能够进行分子生成蛋白质生成蛋白质-配体相互作用预测,从而加快虚拟药物筛选过程。

ADMET预测

  • LLM能够预测候选药物的药代动力学(Pharmacokinetics)、毒性(Toxicity)和理化性质(Physicochemical Properties),帮助评估药物在人体中的行为。

先导优化(Lead Optimization)

  • LLM能够通过优化分子结构和蛋白质相互作用,帮助改进候选化合物的疗效和安全性。

辅助功能(Assistance)

  • LLM还可以提供信息检索和知识解释,帮助研究人员快速获取所需信息,提升药物开发的效率。

4

大语言模型在临床试验中的作用

这张图表左侧展示了临床试验的不同阶段,右侧展示了大语言模型(LLM)在这些阶段中的应用。

左侧:临床试验阶段

  1. 第一阶段(Phase 1)

  • 主要测试药物的安全性和最佳剂量水平。通常在15到50名健康志愿者中进行。

第二阶段(Phase 2)

  • 探索药物的有效性以及可能的副作用,参与人数通常少于100人。

第三阶段(Phase 3)

  • 将新治疗与现有治疗进行比较,验证新药物的效果,通常有超过100人参与。

第四阶段(Phase 4)

  • 药物获批后,评估其长期效果,通常有超过1000名参与者。

右侧:LLM的应用领域
  1. 临床实践(Clinical Practice)

  • ICD编码:帮助生成和优化疾病分类编码。

  • 病人-试验匹配:通过分析患者特征,自动匹配合适的临床试验。

  • 临床试验预测:预测临床试验的成功率和结果。

  • 临床试验规划:协助研究人员制定有效的临床试验计划。

患者结果(Patient Results)

  • 患者结果预测:根据现有数据预测患者治疗的效果。

辅助功能(Assistance)

  • 文件撰写:帮助生成临床试验相关文件和报告。

  • 信息检索:快速查找和整理与试验相关的信息。

  • 知识解释:对复杂的医学或药物信息进行解释,方便研究人员和医生理解。

5

成熟度评估: 大语言模型

在药物研发的应用

这张图表展示了两种类型的大语言模型的应用成熟度:科学大语言模型(Specialized LMs)和一般大语言模型(General LMs),分别在理解疾病机制、药物发现和临床试验中的应用情况。应用成熟度分为四个等级:新生期、进展期、成熟期以及不适用(N/A):

不适用(Not Applicable)

  • 该类大语言模型(LLM)的应用不适合或与给定的下游任务无关。在这种情况下,LLM的范式不被认为是有效或相关的工具。

新生期(Nascent)

  • 该类大语言模型的范式已被初步应用于任务,通常是在计算机模拟环境(in silico)中,但缺乏通过实际实验验证的支持。此阶段的应用更多是理论上的或初步探索,尚未经过现实场景中的测试。

进展期(Advanced)

  • 该类大语言模型的应用已经超越了理论,经过了实际场景中的实验验证。这些实验结果表明,LLM在现实中可以在特定的任务中起到一定的作用,但可能还未广泛部署。

成熟期(Matured)

  • 该类大语言模型的应用已被集成到实际的工作环境中,如医院或制药公司,且有明确证据表明其在这些环境中的有效性和实用性。在这个阶段,LLM已被广泛使用,并产生了显著的实际成果。

理解疾病机制(Understanding Diseases Mechanism)
  • 基因组分析(Genomics Analysis)、转录组分析(Transcriptomics Analysis)、蛋白质靶点分析(Protein-target Analysis)、疾病通路分析(Disease-pathway Analysis):

    • 基因组分析(Genomics Analysis)、转录组分析(Transcriptomics Analysis)主要还处于早期

    • 蛋白质靶点分析(Protein-target Analysis)、疾病通路分析(Disease-pathway Analysis)已经处于较为成熟的阶段

药物发现(Drug Discovery)

  • 化学实验(Chemistry Experiment)、计算机模拟(In-silico Simulation)、ADMET预测(ADMET Prediction)、先导优化(Lead Optimization):

    • 两种模型在药物发现的各个环节中的成熟度也大多为进展期。其中,计算机模拟和ADMET预测的进展较快,有潜力进一步推动药物开发。

临床试验(Clinical Trial)

  • 临床试验实践(Clinical Trial Practice)、患者结果预测(Patient Outcome Prediction)

    • 大语言模型在这些任务上都已经被实际应用。

6

未来方向

未来大语言模型(LLM)在药物发现和开发中的应用方向集中在九个关键领域的改进上。首先,需要加强LLM对生物学知识的整合,包括对分子生成、临床试验数据以及科学术语的准确理解和操作。其次,需要解决伦理、隐私及模型误用的问题,确保数据的安全性并防止潜在的滥用。此外,还需关注公平性和偏见问题,避免模型在不同群体中的不平等表现。

其他方面的改进包括解决LLM生成虚假信息(即“幻觉”)的挑战,提升多模态处理能力,扩展上下文窗口以应对海量生物数据,以及增强对时空数据的理解,特别是在分子动力学模拟等领域。最后,整合专业化LLM和通用LLM的能力,以实现更精确的科学任务处理与广泛的用户交互,推动药物研发的自动化与高效化。

直播预告 | 大语言模型如何助力药物研发?

大语言模型(LLM)在药物研发领域的应用正变得越来越重要,它们通过提供深度的数据分析、预测模型和自动化流程,极大地加速了药物从发现到临床试验的整个过程。9 月 25 日上午 9:00,“AI 科技评论”联合雷峰网举行线上直播活动,几位嘉宾将深入探讨大语言模型如何助力药物研发。

时间:2024年9月24 日 周二 9:00-11:00(北京时间)

分享嘉宾:

郑伊圳,Monash University AI博士生;

许桓瑜,Monash University AI和药学院的在读博士生;

王磊,中科院生物物理所和西弗吉尼亚大学博士后;

李莉,哈佛大学博士后,MIT课程讲师;

杜文杰,中国科学技术大学软件学院/苏州高等研究院副研究员;

点击下方预约直播:

更多内容,点击下方关注:

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
比亚迪:比利润下滑19%更可怕的,是裁员10万人

比亚迪:比利润下滑19%更可怕的,是裁员10万人

诗与星空
2026-03-30 08:00:11
这个菜市场居然挤满外国游客?没错,他们觉得比一些“旅游景点”还有看头、更有吃头!

这个菜市场居然挤满外国游客?没错,他们觉得比一些“旅游景点”还有看头、更有吃头!

上海黄浦
2026-03-31 16:38:24
走了一位“亲华总理”,又上了一位“亲华总理”,蒙古国想通了

走了一位“亲华总理”,又上了一位“亲华总理”,蒙古国想通了

罗富强说
2026-03-31 12:00:47
全命中要害?伊朗导弹打出史诗级效果,四枚导弹都落入美军基地!

全命中要害?伊朗导弹打出史诗级效果,四枚导弹都落入美军基地!

徐醇老表哥
2026-03-30 23:39:19
4抢断4拦截!邵佳一爱将太亮眼:对抗不输喀麦隆,留洋英超涨球了

4抢断4拦截!邵佳一爱将太亮眼:对抗不输喀麦隆,留洋英超涨球了

小火箭爱体育
2026-03-31 17:58:41
一定要大量读书:经常读书的人,一眼就能看出来

一定要大量读书:经常读书的人,一眼就能看出来

欣辰读书
2026-03-29 22:35:04
全网疯传fork!刚刚,Claude Code源代码泄露被开源了

全网疯传fork!刚刚,Claude Code源代码泄露被开源了

机器之心Pro
2026-03-31 21:23:32
过量摄入蛋白质对身体无益

过量摄入蛋白质对身体无益

保健时报
2026-03-31 16:15:43
正式退出常规赛!焦泊乔赴京开启治疗,原因曝光,杜锋该醒醒了

正式退出常规赛!焦泊乔赴京开启治疗,原因曝光,杜锋该醒醒了

萌兰聊个球
2026-03-31 14:44:52
里维拉:意大利这次必须出线;如今意甲已培养不出超级球星了

里维拉:意大利这次必须出线;如今意甲已培养不出超级球星了

懂球帝
2026-04-01 02:29:04
朝军真男人!乌士兵透露:好不容易俘虏一个,他直接咬断血管自杀

朝军真男人!乌士兵透露:好不容易俘虏一个,他直接咬断血管自杀

阿龙聊军事
2026-03-31 19:16:06
1996年, 施瓦辛格在家中无事,和35岁200斤女佣发生不当关系

1996年, 施瓦辛格在家中无事,和35岁200斤女佣发生不当关系

南权先生
2026-01-20 15:49:53
震惊!浙大博士孟伟自曝时日无多,直播猛灌酒呲牙,状态吓坏网友

震惊!浙大博士孟伟自曝时日无多,直播猛灌酒呲牙,状态吓坏网友

川渝视觉
2026-03-29 21:27:07
终于知道采购吃回扣是怎么被发现的了,网友分享真实,太开眼了

终于知道采购吃回扣是怎么被发现的了,网友分享真实,太开眼了

夜深爱杂谈
2026-03-13 22:02:43
人民币汇率升破6.83,中国美元GDP重估,何时能突破21万亿美元

人民币汇率升破6.83,中国美元GDP重估,何时能突破21万亿美元

壹号股权
2026-03-31 12:11:07
保密期限终到期,中央首长透露:毛岸英真相,可以向外界公开了

保密期限终到期,中央首长透露:毛岸英真相,可以向外界公开了

历史点行
2026-03-29 13:38:28
刚刚!黄金飙涨、股市拉升、油价跳水!特朗普释放重磅信号

刚刚!黄金飙涨、股市拉升、油价跳水!特朗普释放重磅信号

新浪财经
2026-03-31 10:31:59
再度搭档 卢拉与阿尔克明竞选连任

再度搭档 卢拉与阿尔克明竞选连任

财联社
2026-04-01 01:53:35
鲁山舅舅娶亡姐大结局!新华社通报调查结果,这次终于真相大白了

鲁山舅舅娶亡姐大结局!新华社通报调查结果,这次终于真相大白了

青橘罐头
2026-03-31 07:11:50
广东101-92险胜江苏,马健赛后犀利点评一针见血,直击球队痛点!

广东101-92险胜江苏,马健赛后犀利点评一针见血,直击球队痛点!

田先生篮球
2026-04-01 05:48:11
2026-04-01 06:20:49
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7161文章数 20742关注度
往期回顾 全部

科技要闻

华为2025年销售收入8809亿,净利润680亿元

头条要闻

美军向中东部署第三艘航母 估计将用时两至三周

头条要闻

美军向中东部署第三艘航母 估计将用时两至三周

体育要闻

县城修车工,用20年成为世界冠军

娱乐要闻

《月鳞绮纪》空降 鞠婧祎却被举报偷税

财经要闻

油价暴涨 我们的生活成本会飙升多少?

汽车要闻

腾势Z9GT到底GT在哪?

态度原创

家居
数码
艺术
亲子
公开课

家居要闻

新婚爱巢 甜蜜情趣拉满

数码要闻

飞利浦“32M2N8900X“31.5英寸显示器开售,6999元

艺术要闻

蓝瑛『兰竹石册』

亲子要闻

为什么不建议孩子穿开裆裤?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版