网易首页 > 网易号 > 正文 申请入驻

8B尺寸达到GPT-4级性能!北大等提出医疗专家模型训练方法

0
分享至


新智元报道

编辑:LRST

【新智元导读】本文研究发现大语言模型在持续预训练过程中出现目标领域性能先下降再上升的现象。本文引入「稳定性差距」概念来解释该现象,并提出了三种策略来缓解问题。首先,本文提出在适当大小的数据子集上进行多轮预训练,能比单轮大数据集预训练更快的性能恢复。其次,应选取最高质量的子语料进行多轮预训练。最后,通过混合数据来接近预训练数据分布。这些策略在医疗领域的持续预训练和指令精调中均显著提升效果和削减计算量。相关Llama-3-Physician-8B模型现已开源于HuggingFace。

大规模语言模型(LLMs)的持续预训练是提升其在特定领域性能的重要方法。通过在新领域的语料库上预训练大语言模型,这一过程能够显著增加模型的领域知识储备和任务能力。

然而,尽管已有许多研究探讨了从头预训练的LLMs的学习机制和性质,关于持续预训练过程中LLMs行为的研究却相对较少。

最近北京大学、香港科技大学等开源了一个8B医学大模型,通过测试模型在连续预训练和指令微调实验过程中的表现变化,发现了许多有趣的现象。


论文链接:https://arxiv.org/abs/2406.14833

开源地址:https://huggingface.co/YiDuo1999/Llama-3-Physician-8B-Instruct

先下降后上升: 模型训练中存在的稳定性缺失问题

本文首先选取TinyLLaMa-1b 和OpenLLaMA-3b模型作为基座模型,并在5百亿医疗tokens上做做连续单轮预训练。在预训练过程中,作者每隔5b测试一次模型在医疗维基语料上的困惑度(PPL)和下游医疗任务的平均表现。

如图1 所示,尽管模型在医疗维基语料上的困惑度持续下降(图1b),但在连续预训练初期,模型在医学任务上的表现却出现了下降 (图1a)。随着更多数据的训练,任务表现逐渐恢复并超过了原始模型的水平 。


图1:(a)预训练过程中模型在四个医疗QA任务上的平均表现(b)预训练过程中模型在医疗维基语料上的困惑度

为了解释表现先下降后上升的行为,我们借鉴了持续学习中的稳定性差距概念。基于它的解释,医疗任务表现最初下降是因为学习新领域的可塑性梯度超过了维持通用任务能力的稳定性梯度,导致未能维持医疗任务的性能。随后,任务损失增强了稳定性梯度,这一前后稳定性差距最终导致性能恢复并上升。

为了验证以上假设,我们进一步测试了模型在医疗持续预训练中的通用任务表。如图2显示,一般任务性能呈现类似的V形曲线,表明一般指令跟随能力在最初下降后恢复。


图2:预训练过程中模型在10个常识和阅读理解任务上的平均表现

三个针对稳定性差距的训练策略

为了克服持续预训练中存在的稳定性差距问题,本文提出了三种有效策略:

策略1:在适当大小的数据子集上进行多轮预训练,而不是在大数据集上进行单轮预训练。这种策略减少了每次预训练所需的高可塑性梯度,促进了稳定性梯度的上升,进而加速了性能恢复。

策略2:仅在高质量的子语料库上进行预训练,以快速提升特定领域的性能。

策略3:按照预训练数据分布采取其它来源的数据并和医疗高质量数据混合训练,减少预训练分布和连续预训练差距,促进模型稳定性梯度的形成。


表1:在医疗预训练完成后模型在四个医疗任务上的zero-shot表现

实验结果:本文通过对比多种基线方法来验证提出的三条策略的有效性, 其中包括500亿医疗数据单轮训练、学习率Re-warming and Re-decaying、重采样和参数固定等基线。

如下表1所示,基于本文的策略,OpenLLaMa模型只需要在高质量50亿数据上训练4个轮次(即原计算预算的40%),便可以在医疗任务平均表现上显著超越了所有基线,尤其在PubMedQA等医学问答任务中表现突出。

面向GPT4水平的8B医疗专家模型

连续预训练:本文按照提出的三种策略对Llama-3-8B模型做进一步的医疗连续预训练。在这个过程中使用了50亿高质量医学数据,并对模型做四个轮次的重复训练。

指令微调:连续预训练完成后,本文采用多个类型的医疗任务指令对模型做指令微调,包括问答任务、分类任务、关系提取任务、自然语言推理任务和总结任务。

微调过程中,研究团队继续采用提出的三种策略来优化指令微调效果。首先是多轮次训练,这在医学指令微调过程中是常见的。其次,利用Deita自动指令数据选择器,选择高质量的医学指令数据子集。最后,使用高质量的通用指令数据集,如Airoboros-3.2,以缓解模型在通用任务完成能力上的遗忘。


图3:指令微调过程中模型的医疗平均表现

如图3所示,在指令微调过程中,使用所有数据做微调仍然可能在初始训练阶段时面临表现下降问题。而通过我们的三种策略,模型仅需25%的指令数据就能达到最佳性能,这降低了计算资源的消耗。

实验比较:本文进一步将达到最佳表现的指令微调模型Llama-3-Physician-8B-insturct与其它医疗模型比较。如表2所示,Llama-3-Physician-8B-insturct在医疗问答任务上明显优于其它同尺寸的开源模型,并且超过了闭源的GPT-3.5-turbo模型。同时,它的平均医疗问答任务表现也接近GPT-4.


表2:指令微调结束后各模型在四个医疗问答任务上的zero-shot表现

本文进一步考虑Llama-3-Physician-8B-insturct在其它类型(非问答)的医疗任务上的表现。如表3所示,Llama-3-Physician-8B-insturct在医疗分类,关系抽取,推理和总结任务上都取得了优异表现,且明显超过GPT-4表现。


表3:指令微调结束后各模型在医疗分类,关系抽取,推理和总结任务上的zero-shot表现

总结

1. 本论文研究了在对LLMs(大语言模型)进行新领域语料库的连续预训练时的行为,并观察到模型初始性能下降,随后缓慢恢复的现象。本文使用稳定性差距这一概念来描述这一现象,并从可塑性和稳定性梯度的角度对此解释

2. 本文进一步提出了三种有效提高LLM在特定领域表现并降低计算成本的策略,从而克服稳定性差距。这些策略包括:在适当大小的数据子集上进行多轮预训练,选取高质量子集和按预训练数据分布混合采样数据。

3. 本文将这些策略应用于最新的Llama-3-8B模型的连续预训练和指令微调过程中,所得到的Llama-3-Physician-8B-insturct不仅在同规模开源模型中表现最强,并且优于闭源的GPT-3.5模型,接近GPT-4的表现。

参考资料:

https://arxiv.org/abs/2406.14833


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
玩家称《黑神话》主角和郭帆撞脸 郭帆自己都没绷住

玩家称《黑神话》主角和郭帆撞脸 郭帆自己都没绷住

游民星空
2024-07-03 10:04:42
韩国男足选帅尘埃落定!中超旧帅“再就业”,曾半年即下课

韩国男足选帅尘埃落定!中超旧帅“再就业”,曾半年即下课

谈谈体坛那些事
2024-07-03 16:40:42
林丹手拿张志杰球衣悼念:走好少年 此前抨击羽联赛制不合理

林丹手拿张志杰球衣悼念:走好少年 此前抨击羽联赛制不合理

醉卧浮生
2024-07-03 15:56:02
平台定制矿泉水变绿?叮咚买菜:暂停销售该生产商所有商品

平台定制矿泉水变绿?叮咚买菜:暂停销售该生产商所有商品

南方都市报
2024-07-02 17:16:18
“祸港四人帮”陈方安生:如今活成一个笑话,胞弟自杀、女儿去世

“祸港四人帮”陈方安生:如今活成一个笑话,胞弟自杀、女儿去世

鲸落女孩
2024-06-28 10:47:25
闹大了!重庆西站“优先权”风波:退伍军人“咆哮式”吐槽

闹大了!重庆西站“优先权”风波:退伍军人“咆哮式”吐槽

文雅笔墨
2024-07-03 13:20:10
太惨!“夹包哥”被捅身亡后续:官方通报辟谣,老母实属可怜

太惨!“夹包哥”被捅身亡后续:官方通报辟谣,老母实属可怜

苗苗情感说
2024-07-03 13:08:46
越闹越大,几名初中生纵火烧车后续来了,家长要私了,车主拒绝

越闹越大,几名初中生纵火烧车后续来了,家长要私了,车主拒绝

张国平爱唱歌
2024-06-26 21:22:36
11.68万元起,2024 款一汽丰田卡罗拉上市:双擎精英版降价2000元

11.68万元起,2024 款一汽丰田卡罗拉上市:双擎精英版降价2000元

IT之家
2024-07-03 16:06:46
马德兴:归化大概率将落空,18强赛国足需要一个更会进球的武磊

马德兴:归化大概率将落空,18强赛国足需要一个更会进球的武磊

直播吧
2024-07-03 12:44:41
北京市教委:9月起面向市属公办高校全覆盖开设人工智能通识课

北京市教委:9月起面向市属公办高校全覆盖开设人工智能通识课

芥末堆看教育
2024-07-03 17:08:06
没有商量的余地!中国拒绝“再次救助”美国,持续减持美债

没有商量的余地!中国拒绝“再次救助”美国,持续减持美债

蓝色海边
2024-07-03 07:30:07
继赵睿后,又一重庆小伙吴某宏在乌克兰当了炮灰?

继赵睿后,又一重庆小伙吴某宏在乌克兰当了炮灰?

非虚构故事
2024-07-01 21:45:43
离岸人民币跌破7.31关口,什么情况? 未来走势如何?

离岸人民币跌破7.31关口,什么情况? 未来走势如何?

第一财经资讯
2024-07-03 12:24:08
工人32楼高空作业时,被业主砍断安全绳!警方通报:双方主动和解

工人32楼高空作业时,被业主砍断安全绳!警方通报:双方主动和解

鲁中晨报
2024-07-02 22:27:12
上身比基尼,下身牛仔裤,44的秦岚把「腰臀比」的完美展现到极致

上身比基尼,下身牛仔裤,44的秦岚把「腰臀比」的完美展现到极致

娱乐皮皮酱
2024-06-04 23:57:24
为什么中国登月没人质疑,而美国登月却被质疑呢?网友的回复亮了

为什么中国登月没人质疑,而美国登月却被质疑呢?网友的回复亮了

嘿哥哥科技
2024-07-03 11:56:29
山西最“窝囊”的市长,在任时被寄花圈威胁,离任后万民跪地认错

山西最“窝囊”的市长,在任时被寄花圈威胁,离任后万民跪地认错

大头博士记
2024-07-03 19:10:13
有钱任性!7月5日开始,广东深圳⇋中山之间乘车免费!免预约!

有钱任性!7月5日开始,广东深圳⇋中山之间乘车免费!免预约!

吃货的分享
2024-07-03 12:57:58
A股:还有更大级别的暴风雨?明天周四,不做切换的必定继续吃面

A股:还有更大级别的暴风雨?明天周四,不做切换的必定继续吃面

一丛深色花儿
2024-07-03 16:43:02
2024-07-03 22:02:44
新智元
新智元
AI产业主平台领航智能+时代
11231文章数 65544关注度
往期回顾 全部

科技要闻

吴世春:"中国大模型五虎"想跑出来非常难

头条要闻

中国7岁小女孩发现特斯拉"技术缺陷" 马斯克作出回应

头条要闻

中国7岁小女孩发现特斯拉"技术缺陷" 马斯克作出回应

体育要闻

欧洲杯最伟大的一次扑救,诞生了

娱乐要闻

刘亦菲唐嫣深夜晒照,美女贴贴好养眼

财经要闻

王忠民:AI时代切勿用周期思维做投资

汽车要闻

巴黎4S店价格对比 同款车型中国售价打对折

态度原创

本地
健康
手机
家居
房产

本地新闻

云游中国 | 走进安塞,寻觅黄土高原文化记忆

人类为何至今无法攻克渐冻症?

手机要闻

4799元起!红魔9S PRO系列正式发布 真全面屏设计

家居要闻

温柔简约 浅色基调与明亮空间的协奏

房产要闻

海南楼市第二轮新政潮开启!这次救市的药,来得更猛!

无障碍浏览 进入关怀版