网易首页 > 网易号 > 正文 申请入驻

大语言模型如何助力药物开发? 哈佛 George Church Lab 最新综述

0
分享至


文章链接: https://arxiv.org/abs/2409.04481

大语言模型因其展现出类人般的推理、工具使用和问题解决能力而备受瞩目,此外,它在化学、生物学等专业领域也展现出深厚的理解能力,进一步提升了其应用价值。本文阐述大语言模型可以在理解疾病机制、药物发现和临床试验三个药物发现的基本阶段展现出重要潜力。


首先,本文展示了过去、现在的药物研发与临床试验中的过程并展现了大语言模型(LLMs)未来在这些阶段的潜在应用。

理解疾病机制:

  • 过去:依赖手动文献和专利搜索。

  • 现在:除了手动文献搜索,还加入了功能基因组学分析。

  • 未来:LLMs将自动识别靶基因,发现生化和药理学原理。

药物发现:

  • 过去:通过天然产物的发现和随机筛选进行药物研发。

  • 现在:使用虚拟筛选和基于结构的手动药物设计。

  • 未来:LLMs将设计新型治疗方法,自动生成药物设计,并自动进行实验。

临床试验:

  • 过去和现在:手动匹配病人与试验、设计临床试验以及收集临床试验数据。

  • 未来:LLMs将自动进行病人匹配、试验设计,并预测试验结果。

1

大语言模型的分类


本文将大语言模型分为两类: 科学大语言模型(Scientific Language Model)和一般大语言模型(General Language Model)。两者的对比和差异如下:

科学大语言模型

  • 领域:涉及化学(分子)、生物学(蛋白质、基因)等专门领域。

  • 训练数据:包括化学中的SMILES、IUPAC序列,蛋白质的FASTA序列,基因的FASTA序列等。

  • 任务解决能力:能够处理分子、蛋白质、基因相关的任务,如逆合成规划、反应预测、分子设计、蛋白质结构预测、基因网络分析等。

  • 工具型使用:作为工具,通过获取任务所需信息,生成预测结果(如蛋白质-配体结合亲和力评分)。

通用语言模型

  • 领域:基于更广泛的文本数据,如书籍、互联网、社交媒体等。

  • 训练数据:包括书籍、问答网站、社交媒体、百科等来源。

  • 人类式能力:具备理解背景知识、推理、角色扮演(如化学家)、规划、使用工具和信息检索等能力。

  • 助手型使用:可以像助手一样与用户互动,回答问题、解释复杂概念并帮助用户完成任务。

2

大语言模型在理解疾病机制中的作用


这张图表分为两部分,左边展示了疾病研究的关键流程,右边展示了大语言模型(LLM)在这些流程中的具体应用领域。

左侧:疾病研究流程

  1. 临床分型(Clinical Sub-typing)

  • 通过多组学数据的收集(如基因、蛋白质、代谢组等),结合临床分析和伦理法规要求,对疾病进行分型。目的是更好地理解疾病的异质性,从而为后续的靶点发现打下基础。

靶点-疾病关联(Target-Disease Linkage)

  • 通过基因表达谱分析、多通路分析等方法,结合实验工具(如CRISPR-Cas9、RNA干扰等),寻找并验证疾病与潜在治疗靶点的关联性。这一步对于药物开发至关重要。

靶点验证(Target Validation)

  • 验证靶点的安全性与可行性,评估其药物开发潜力。涉及靶点安全、药物可及性(Drugability)和测试可行性。靶点的作用机制(如激动剂、拮抗剂、调节剂等)也会在这一阶段进行确认,从而选择合适的治疗方式,如蛋白质、小分子或RNA治疗。

右侧:LLM的应用领域
  1. 基因组分析(Genomics Analysis)

  • LLM可以帮助预测基因变异、启动子区域、转录因子结合位点等信息,从而帮助科研人员在基因组层面理解疾病机制。

转录组分析(Transcriptomics Analysis)

  • LLM可以处理mRNA表达分析、基因网络分析等复杂数据,辅助研究人员挖掘重要的转录组信息,了解基因的调控模式和表达差异。

蛋白质靶点分析(Protein Target Analysis)

  • LLM能够预测蛋白质结构、功能注释、蛋白质间相互作用以及配体结合位点等信息,帮助科研人员选择潜在的药物靶点。

疾病通路分析(Disease Pathway Analysis)

  • LLM在疾病通路分析中能够分析蛋白质与疾病之间的复杂相互作用,识别潜在的治疗靶点和干预途径,从而加速药物开发过程。

辅助功能(Assistance)

  • LLM还可以提供知识发现、信息检索等辅助功能,帮助科研人员快速获取相关信息,加快研究进程。

3

大语言模型在药物发现中的作用


这张图分为两部分,左边展示了药物发现的过程,右边展示了大语言模型(LLM)在药物发现各阶段的具体应用。

左侧:药物发现过程

  1. 药物类型选择

  • 科学家可以选择不同的治疗方式,包括蛋白质小分子药物RNA。该图以小分子药物为例,展示了它们在药物开发中的应用。

药物发现流程

  • 命中识别(Hit Identification):通过筛选大量化合物,找到与靶点有初步反应的分子。

  • 命中到先导(Hit to Lead):进一步优化这些初步命中分子,以提高其与靶点的结合能力。

  • 先导优化(Lead Optimization):对先导化合物进行结构改造,增强其疗效和药物特性。

  • 临床前研究(Pre-clinical):在进入临床试验前,评估候选药物的安全性和有效性。

  • 药物候选物(Drug Candidates):通过上述流程,产生最终可供临床试验的候选药物。

右侧:LLM的应用领域
  1. 化学领域(Chemistry)

  • LLM可以用于化学机器人自动化合成、逆合成规划和反应预测等任务,帮助化学家加速化合物的发现。

计算机模拟(In Silico Simulation)

  • LLM能够进行分子生成蛋白质生成蛋白质-配体相互作用预测,从而加快虚拟药物筛选过程。

ADMET预测

  • LLM能够预测候选药物的药代动力学(Pharmacokinetics)、毒性(Toxicity)和理化性质(Physicochemical Properties),帮助评估药物在人体中的行为。

先导优化(Lead Optimization)

  • LLM能够通过优化分子结构和蛋白质相互作用,帮助改进候选化合物的疗效和安全性。

辅助功能(Assistance)

  • LLM还可以提供信息检索和知识解释,帮助研究人员快速获取所需信息,提升药物开发的效率。

4

大语言模型在临床试验中的作用


这张图表左侧展示了临床试验的不同阶段,右侧展示了大语言模型(LLM)在这些阶段中的应用。

左侧:临床试验阶段

  1. 第一阶段(Phase 1)

  • 主要测试药物的安全性和最佳剂量水平。通常在15到50名健康志愿者中进行。

第二阶段(Phase 2)

  • 探索药物的有效性以及可能的副作用,参与人数通常少于100人。

第三阶段(Phase 3)

  • 将新治疗与现有治疗进行比较,验证新药物的效果,通常有超过100人参与。

第四阶段(Phase 4)

  • 药物获批后,评估其长期效果,通常有超过1000名参与者。

右侧:LLM的应用领域
  1. 临床实践(Clinical Practice)

  • ICD编码:帮助生成和优化疾病分类编码。

  • 病人-试验匹配:通过分析患者特征,自动匹配合适的临床试验。

  • 临床试验预测:预测临床试验的成功率和结果。

  • 临床试验规划:协助研究人员制定有效的临床试验计划。

患者结果(Patient Results)

  • 患者结果预测:根据现有数据预测患者治疗的效果。

辅助功能(Assistance)

  • 文件撰写:帮助生成临床试验相关文件和报告。

  • 信息检索:快速查找和整理与试验相关的信息。

  • 知识解释:对复杂的医学或药物信息进行解释,方便研究人员和医生理解。

5

成熟度评估: 大语言模型

在药物研发的应用


这张图表展示了两种类型的大语言模型的应用成熟度:科学大语言模型(Specialized LMs)和一般大语言模型(General LMs),分别在理解疾病机制、药物发现和临床试验中的应用情况。应用成熟度分为四个等级:新生期、进展期、成熟期以及不适用(N/A):

不适用(Not Applicable)

  • 该类大语言模型(LLM)的应用不适合或与给定的下游任务无关。在这种情况下,LLM的范式不被认为是有效或相关的工具。

新生期(Nascent)

  • 该类大语言模型的范式已被初步应用于任务,通常是在计算机模拟环境(in silico)中,但缺乏通过实际实验验证的支持。此阶段的应用更多是理论上的或初步探索,尚未经过现实场景中的测试。

进展期(Advanced)

  • 该类大语言模型的应用已经超越了理论,经过了实际场景中的实验验证。这些实验结果表明,LLM在现实中可以在特定的任务中起到一定的作用,但可能还未广泛部署。

成熟期(Matured)

  • 该类大语言模型的应用已被集成到实际的工作环境中,如医院或制药公司,且有明确证据表明其在这些环境中的有效性和实用性。在这个阶段,LLM已被广泛使用,并产生了显著的实际成果。

理解疾病机制(Understanding Diseases Mechanism)
  • 基因组分析(Genomics Analysis)、转录组分析(Transcriptomics Analysis)、蛋白质靶点分析(Protein-target Analysis)、疾病通路分析(Disease-pathway Analysis):

    • 基因组分析(Genomics Analysis)、转录组分析(Transcriptomics Analysis)主要还处于早期

    • 蛋白质靶点分析(Protein-target Analysis)、疾病通路分析(Disease-pathway Analysis)已经处于较为成熟的阶段

药物发现(Drug Discovery)

  • 化学实验(Chemistry Experiment)、计算机模拟(In-silico Simulation)、ADMET预测(ADMET Prediction)、先导优化(Lead Optimization):

    • 两种模型在药物发现的各个环节中的成熟度也大多为进展期。其中,计算机模拟和ADMET预测的进展较快,有潜力进一步推动药物开发。

临床试验(Clinical Trial)

  • 临床试验实践(Clinical Trial Practice)、患者结果预测(Patient Outcome Prediction)

    • 大语言模型在这些任务上都已经被实际应用。

6

未来方向

未来大语言模型(LLM)在药物发现和开发中的应用方向集中在九个关键领域的改进上。首先,需要加强LLM对生物学知识的整合,包括对分子生成、临床试验数据以及科学术语的准确理解和操作。其次,需要解决伦理、隐私及模型误用的问题,确保数据的安全性并防止潜在的滥用。此外,还需关注公平性和偏见问题,避免模型在不同群体中的不平等表现。

其他方面的改进包括解决LLM生成虚假信息(即“幻觉”)的挑战,提升多模态处理能力,扩展上下文窗口以应对海量生物数据,以及增强对时空数据的理解,特别是在分子动力学模拟等领域。最后,整合专业化LLM和通用LLM的能力,以实现更精确的科学任务处理与广泛的用户交互,推动药物研发的自动化与高效化。

直播预告 | 大语言模型如何助力药物研发?

大语言模型(LLM)在药物研发领域的应用正变得越来越重要,它们通过提供深度的数据分析、预测模型和自动化流程,极大地加速了药物从发现到临床试验的整个过程。9 月 25 日上午 9:00,“AI 科技评论”联合雷峰网举行线上直播活动,几位嘉宾将深入探讨大语言模型如何助力药物研发。

时间:2024年9月24 日 周二 9:00-11:00(北京时间)

分享嘉宾:

郑伊圳,Monash University AI博士生;

许桓瑜,Monash University AI和药学院的在读博士生;

王磊,中科院生物物理所和西弗吉尼亚大学博士后;

李莉,哈佛大学博士后,MIT课程讲师;

杜文杰,中国科学技术大学软件学院/苏州高等研究院副研究员;


点击下方预约直播:

更多内容,点击下方关注:

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
三毛死因揭秘:研究通灵之术,曾看过生死簿,17年后遗书公开隐情

三毛死因揭秘:研究通灵之术,曾看过生死簿,17年后遗书公开隐情

小月文史
2023-10-20 14:25:07
马航370并非凭空消失,一个美国中情局特工被灭口前,透露真相

马航370并非凭空消失,一个美国中情局特工被灭口前,透露真相

灿烂夏天
2024-11-15 14:35:17
求助无门?药检阳性后穆德里克给舍甫琴科打电话,后者直接断联

求助无门?药检阳性后穆德里克给舍甫琴科打电话,后者直接断联

直播吧
2024-12-30 17:16:16
官宣,努尔基奇1换2成功!太阳大换血!意中人又被截胡,湖人真惨

官宣,努尔基奇1换2成功!太阳大换血!意中人又被截胡,湖人真惨

张家大院趣说天下事
2024-12-30 08:50:03
电动汽车下地库受限,江苏新规要求充电设施只能装在负一层

电动汽车下地库受限,江苏新规要求充电设施只能装在负一层

金融界
2024-12-30 14:38:26
人根本不是机器的对手!乌军发动首次纯机器人战斗俄军战死70多人

人根本不是机器的对手!乌军发动首次纯机器人战斗俄军战死70多人

大风文字
2024-12-28 16:24:19
大陆公布疑似六代机后,台当局开出交流条件,赖清德或有重要表态

大陆公布疑似六代机后,台当局开出交流条件,赖清德或有重要表态

猎火照狼山
2024-12-31 00:05:08
马上停止佩戴这东西,辐射强还致癌,白送也不要,家里有的快扔掉

马上停止佩戴这东西,辐射强还致癌,白送也不要,家里有的快扔掉

快看张同学
2024-12-29 07:45:03
你们仨这么炸裂?21/22赛季英冠升超三兄弟:英超第2/第6/第8

你们仨这么炸裂?21/22赛季英冠升超三兄弟:英超第2/第6/第8

直播吧
2024-12-30 15:52:19
58名中管干部被查、59名中管干部受处分!2024反腐年报

58名中管干部被查、59名中管干部受处分!2024反腐年报

新京报政事儿
2024-12-29 14:41:24
侯耀华喊话姜昆少管闲事,示好曹云金,极力促成杨议拜师侯宝林

侯耀华喊话姜昆少管闲事,示好曹云金,极力促成杨议拜师侯宝林

五四观娱
2024-12-30 22:34:32
比赛未结束,中国队已出线!连续2年进联合杯8强,郑钦文替身神了

比赛未结束,中国队已出线!连续2年进联合杯8强,郑钦文替身神了

侃球熊弟
2024-12-30 20:34:55
农民工“返乡潮”消失了?不是因为不回家了,而是这4大原因

农民工“返乡潮”消失了?不是因为不回家了,而是这4大原因

农夫也疯狂
2024-12-29 16:17:59
诈骗犯用5万赃款买了5台电脑,警方要求商家退钱才能解冻账户!

诈骗犯用5万赃款买了5台电脑,警方要求商家退钱才能解冻账户!

张晓磊
2024-12-30 07:24:13
韩德君:身背“辽宁”二字是一种责任,就应该为家乡做出贡献

韩德君:身背“辽宁”二字是一种责任,就应该为家乡做出贡献

懂球帝
2024-12-30 22:47:08
29岁画画博主"咖啡"死得太凄惨!生前疼到整晚哀嚎,最后画面流出

29岁画画博主"咖啡"死得太凄惨!生前疼到整晚哀嚎,最后画面流出

美美谈情感
2024-12-30 10:47:42
39岁岳云鹏代言苹果手机,等待他的不是掌声,而是网暴!

39岁岳云鹏代言苹果手机,等待他的不是掌声,而是网暴!

史行途
2024-12-30 14:23:25
宇航员登月回归后精神失常,死前坦言:人类不应踏足远方

宇航员登月回归后精神失常,死前坦言:人类不应踏足远方

清茶浅谈
2024-12-20 22:30:46
日本外相回国,日媒纷纷发文划清界线,中日关系仍旧前途模糊

日本外相回国,日媒纷纷发文划清界线,中日关系仍旧前途模糊

沃德舆情观察
2024-12-29 00:38:11
实在是顶不住!山西全部12人皆上场&皆有得分入账 8人上双!

实在是顶不住!山西全部12人皆上场&皆有得分入账 8人上双!

直播吧
2024-12-30 21:45:42
2024-12-31 01:27:00
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
6704文章数 20629关注度
往期回顾 全部

科技要闻

千万年薪!雷军挖来“AI天才少女”

头条要闻

美参议员:特朗普巴拿马言论动摇美国“可信度”

头条要闻

美参议员:特朗普巴拿马言论动摇美国“可信度”

体育要闻

湖人拿到"电风扇" 西部有意思了

娱乐要闻

放飞自我?阿娇演出胖成“阿爆”

财经要闻

新股民激战2024股市!

汽车要闻

阿维塔陈卓谈2025年规划 阿维塔06明年上市

态度原创

家居
健康
手机
游戏
教育

家居要闻

轻奢极简 空间有序合理

属于北京的一处精神“乌托邦”宝地

手机要闻

小米16前瞻来袭:潜望长焦+骁龙8至尊版2,或是小屏手机新标杆

《燕云十六声》移动端官宣:2025年1.9不删档上线!

教育要闻

共51所!鹿城区这些学校的体育设施对外开放

无障碍浏览 进入关怀版