网易首页 > 网易号 > 正文 申请入驻

LLM对齐数据全自动合成!UW华人博士生提出Magpie方法,Macbook Air即可运行

0
分享至


新智元报道

编辑:乔杨

【新智元导读】华盛顿大学和Allen AI最近发表的论文提出了一种新颖有趣的数据合成方法。他们发现,充分利用LLM的自回归特性,可以引导模型自动生成高质量的指令微调数据。

数据对LLM训练而言是至关重要的存在,但我们的关注点往往放在训练和评估数据,而会忽略微调数据。

比如Llama系列模型,虽然开放了权重(如Llama-3-Instruct),但微调数据集依旧是私有的。

LLM的成功有很大一部分取决于指令微调(instruction fine-tuning),这个过程能让模型更好地泛化到训练过程中没有接触过的任务。

正如训练的有效性依赖于训练语料的质量,指令微调的有效性也取决于能否获得高质量的指令数据集。

然而,相比于无标注的自监督训练语料,高质量微调和对齐数据集更加难以构建、扩展,因为需要更多人工标注,而且存在预先定义的提示范围。

就连专门为AI科技巨头提供数据的公司,在目前阶段都无法实现自动化标注,甚至得高薪聘请专业人士参与微调和对齐数据集的构建。

Scale AI的CEO Alexandr Wang曾表示,

最近,华盛顿大学和研究机构Allen AI联合发表的一篇论文就专注于如何让对齐过的LLM合成高质量的微调数据。


论文地址:https://arxiv.org/abs/2406.08464

论文提出的方法实现了全流程的自动化,不需要任何种子问题。更为惊艳的是,代码不仅能在本地运行,而且用LLM自动生成了非常可靠的高质量数据。

他们用Llama-3-8B的Base模型在自己生成的SFT数据集上微调后,得到了比官方微调版本Llama-3-Instruct性能更强的模型。


论文得到了AI圈大佬Sebastian Raschka的转发背书。


起初,他也不相信这种方法真的能够在MacBook Air上本地运行,但亲自尝试后惊喜地发现,真的可以。


Raschka是多本技术畅销书的作者,包括《从头开始构建大语言模型》、《Python机器学习》等,他目前担任Lightning AI的研究工程师。



论文的第一作者Zhangchen Xu是华盛顿大学网络安全实验室的二年级博士生,师从Radha Poovendran教授,研究兴趣是机器学习的安全性、隐私性和公平性,目前关注如何构建可信LLM。


那就让我们仔细探究一下,这种高效的数据合成方法究竟如何实现。

方法概述

典型的LLM输入一般由3个部分组成:

- 查询前模版(pre-query template)

- 查询内容(query)

- 查询后模版(post-query template)

其中的两个模版一般由模型开发者预先定义,以保证正确地提示模型。

比如Llama-2-chat的输入形式就是:

[INST] Hi! [/INST]

在之前的研究中,通常有两种方法构建微调数据集。一是直接让人类手动制作,显然既耗时间又耗资源。二是从少量人工注释的种子指令开始,通过提示调用LLM以合成更多指令。

第二种方法虽然节省人力,但非常考验提示工程的水平,以及对初始种子问题的选择。换言之,很难实现可控的大规模扩展。

更为致命的问题是,合成的指令往往与种子指令十分接近,这会严重影响大规模数据集的多样性。用可扩展的方式,创建高质量且多样化的指令数据集,依旧是LLM领域具有挑战性的问题。

但作者在早期实验中的有一个有趣的发现:由于LLM的自回归特性,只输入查询前模版时,模型会自动合成查询,而且从内容来看,似乎有不错的质量和多样性。这表明它能够有效利用对齐过程中学习到的能力。

以此为启发,作者提出如下思路构建指令数据集:使用查询前模版作为提示,输入给对齐过的LLM,自动生成指令数据。

如下图所示,每个指令数据实例包含一个或多个指令-响应对(instructon-response pair),且会规定指令提供者(provider)与遵循者(follower)的角色。


图1描述了整个数据自动生成的pipeline,大体分为两个步骤。

首先是指令生成。MAGPIE方法将查询内容构建为LLM预定义指令模版的格式,但只包含指令提供者(如user),不包含具体的指令内容。

以此作为LLM输入,模型就会以自回归的方式生成指令。由于不需要特定的提示工程技巧,也没有使用任何种子问题,这个流程确保了生成指令的多样性。

第二步骤中,MAGPIE将之前生成的指令再输入给LLM,得到响应内容。

将以上两个步骤进行重复迭代,就能够得到多轮的指令数据。如果想针对某个特定领域生成数据,加上相应的提示即可实现。


得到原始的生成结果后,作者还根据文本长度、任务类别、输入质量、输入难度等指标进行了过滤。


论文分别使用Llama-3-8B-Instruct和Llama-3-70B-Instruct两个模型,构建了两个数据集MAGPIE-Air和MAGPIE-Pro,并在附录中给出了生成指令的示例:


可以看到,文本质量的确不错,完全可以与人类撰写的指令水平相当。

然而,想评估如此庞大规模数据的质量不能只依靠主观感受,于是作者对生成的指令数据集MAGPIE-Pro进行了定量分析。

数据集分析

覆盖度

要考量指令文本的多样化程度,一个有效指标是文本嵌入的在语义空间中的覆盖范围。

作者从MAGPIE-Pro中随机采样指令文本,编码为嵌入向量并用t-SNE方法投影到二维空间,同时采用三个基线数据集作为对比,包括Alpaca、Evol Instruct和UltraChat。

下图中的每个t-SNE投影点都代表随机抽取的1万条指令。可以看到,MAGPIE-Pro的投影基本将其他三个数据集的范围囊括在内,这表明它提供了更广泛、多样化的主题。


指令属性

论文使用Llama-3-8B-Instruct模型评估MAGPIE指令数据的各种属性,比如指令的任务类别、质量、难度、相似性和响应质量。

生成指令的任务类别主要是信息检索,占比超过一半,也包括创意性写作、寻求建议、规划、数学、推理、头脑风暴编辑等等,与人类用户的主流需求基本一致。


指令的质量和难度同样使用Llama-3-8B-Instruct模型进行自动评估。

可以看到两个数据集中,大部分实例都被判定为平均水平及以上,MAGPIE-Pro的总体质量优于MAGPIE-Air。

数据集指令难度的分布基本类似,超过60%集中在「简单」级别,且Pro数据集比Air略具挑战性。


通过计算指令相似度,可以从另一个侧面评估多样化程度。论文使用FAISS搜索每个文本嵌入的最近邻居并计算二者间距离,来衡量相似程度。

响应质量方面,采用FsfairX-LLaMA3-RM-v0.1作为奖励评估模型,同时以URIAL作为对比的基线模型。奖励差异为正值表示质量较高,有利于指令微调过程。

图5b可以看到,MAGPIE的数据分布相比基线模型整体右移且峰值更低,表明整体上响应质量更好。


安全性

此外,在指令安全性方面,作者采用Llama-guard-2进行自动评估,发现MAGPIE的数据集绝大部分是安全的,但仍然包含了不到1%的有害指令或响应结果。


结果评估

这项研究最大的亮点之一在于高效的运行成本,以及完全自动化、无需任何人工干预的pipeline。

在创建3M MAGPIE-Air数据集时,用4块A100 GPU运行1.55小时/50小时即可完成指令/响应的生成。生成1M MAGPIE-Pro数据集则分别需要3.5小时/150小时。

如果在云服务器上运行,成本也非常可观。每生成1k个实例花费为0.12美元或1.10美元,具体取决于是Air或Pro数据集。

为了真正体现MAGPIE方法的优势,论文将数据集真正运用到基座模型的微调中,与官方发布的微调版本进行对比。

作者选择了ShareGPT、Evol Instruct等6个最先进的开源指令微调数据集作为基线。其中ShareGPT和WildChat由人类撰写,Evol Instruct和UltraChat为合成数据集。

微调的基座模型包括Llama-3和Qwen-1.5,并选取AlpacaEval和Arena-Hard两个广泛采用的指标评估性能。

从两个表格的详细数据对比中可以发现,无论在哪个基座模型上,MAGPIE方法生成的数据集都有更高质量,优于所有的基线数据集,并且在绝大部分指标上优于官方发布的微调模型。



在LLM的scaling law逐渐触摸到数据墙时,这篇论文的方法为合成数据又打开了一扇希望之门。或许使用精心设计的算法与技巧,LLM合成数据能逐渐成为公开数据集的「中流砥柱」。

参考资料:

https://arxiv.org/abs/2406.08464



特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
荷兰队首发有3名非荷兰俱乐部的队友,最近11年来首次

荷兰队首发有3名非荷兰俱乐部的队友,最近11年来首次

直播吧
2024-09-08 02:22:05
俄为何突然改口,拿出“最大诚意”与乌和谈?

俄为何突然改口,拿出“最大诚意”与乌和谈?

说正事
2024-09-07 18:54:23
自慰与性生活的本质区别

自慰与性生活的本质区别

智见派
2024-09-07 12:01:44
万没料到!打不垮中国,美突然对印度下“黑手”?莫迪收重大噩耗

万没料到!打不垮中国,美突然对印度下“黑手”?莫迪收重大噩耗

针砭天下事
2024-09-06 21:00:22
上海警方:涉案220多万单快递、200余万元!63名嫌疑人落网

上海警方:涉案220多万单快递、200余万元!63名嫌疑人落网

新民晚报
2024-09-07 15:04:09
真相大白!打人路虎女司机拘留,手写道歉书,黑衣男子身份揭露!

真相大白!打人路虎女司机拘留,手写道歉书,黑衣男子身份揭露!

嗒啵菲
2024-09-07 09:25:02
外媒漫画丑化我国医疗领域,咱可别跟着瞎起哄!评论区沦陷!

外媒漫画丑化我国医疗领域,咱可别跟着瞎起哄!评论区沦陷!

吭哧有力
2024-09-05 17:32:12
​身份曝光!“蓝衣男子”是中央政法委干部

​身份曝光!“蓝衣男子”是中央政法委干部

长安剑
2023-08-23 20:19:32
网红“东北雨姐”被曝稻田蟹视频造假,本人回应

网红“东北雨姐”被曝稻田蟹视频造假,本人回应

极目新闻
2024-09-07 11:38:00
36岁再签330万肥约,FIBA大杀器回归,1米8老婆很漂亮

36岁再签330万肥约,FIBA大杀器回归,1米8老婆很漂亮

大西体育
2024-09-07 10:13:06
马来西亚总理明确表示:不会屈服外部压力,并继续在南海开采油气

马来西亚总理明确表示:不会屈服外部压力,并继续在南海开采油气

安安说
2024-09-08 02:36:19
王毅:中国向非洲提供帮助从不附加任何政治条件

王毅:中国向非洲提供帮助从不附加任何政治条件

看看新闻Knews
2024-09-06 21:53:32
工信部发布最强禁令:燃油车油耗强制标准,2年内油车或告别市场

工信部发布最强禁令:燃油车油耗强制标准,2年内油车或告别市场

明哥调侃车
2024-09-06 10:40:11
大家终于明白了,严厉打击“恶意讨薪”,是一种社会治理的变化

大家终于明白了,严厉打击“恶意讨薪”,是一种社会治理的变化

附允历史观
2024-09-07 13:39:31
张钧甯在直播间被逼承认下海了?

张钧甯在直播间被逼承认下海了?

新氧
2024-09-06 11:36:57
中国科学院院士,浙江大学医学院院长黄荷凤简历

中国科学院院士,浙江大学医学院院长黄荷凤简历

人家不直得
2024-09-07 18:21:47
曝解放军大校突然去世,仅51岁,告别仪式画面流出,死因真相披露

曝解放军大校突然去世,仅51岁,告别仪式画面流出,死因真相披露

博士观察
2024-09-07 18:35:44
唐伯虎又一真迹被发现,这字颠覆“风流”形象,台北故宫评为“无价之宝”!

唐伯虎又一真迹被发现,这字颠覆“风流”形象,台北故宫评为“无价之宝”!

书法网
2024-09-06 18:03:20
慈善机构扛不住了,开始对自己人伸手了:按级别高低设捐款金额!

慈善机构扛不住了,开始对自己人伸手了:按级别高低设捐款金额!

眼光很亮
2024-09-07 14:37:01
8日凌晨,台湾矛盾升级!美国不信中会动手,中国:直接终止美援

8日凌晨,台湾矛盾升级!美国不信中会动手,中国:直接终止美援

北风咧
2023-08-09 09:34:52
2024-09-08 04:02:44
新智元
新智元
AI产业主平台领航智能+时代
11507文章数 65584关注度
往期回顾 全部

科技要闻

苹果发布会终极前瞻 会见到哪些更新?

头条要闻

小杨哥回应近期舆论问题:不存在没售后 有问题定负责

头条要闻

小杨哥回应近期舆论问题:不存在没售后 有问题定负责

体育要闻

名宿德容颁奖,加克波领取2024年欧洲杯最佳射手奖杯

娱乐要闻

37岁刘诗诗被吐槽脸越来越僵

财经要闻

针对光刻机等设备 荷兰还是下手了

汽车要闻

轴距2900mm smart精灵#5将于9月20日预售

态度原创

亲子
家居
本地
艺术
公开课

亲子要闻

笑不活了,小朋友不会说谎,但是会胡说八道

家居要闻

苏式园林 高级原木质感

本地新闻

乘风破浪 向阳而歌 一起相约天子湖

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

公开课

简单的血液测试就能检测出癌症吗?

无障碍浏览 进入关怀版