网易首页 > 网易号 > 正文 申请入驻

景联文技术洞察专栏:LLM领域研究与实践

0
分享至

LLM(Large Language Model)是指大型语言模型,是一类使用深度学习技术构建的自然语言处理(‌NLP)模型。LLM模型可以处理各种语言任务,如文本生成、文本分类、机器翻译等。

为帮助大家更好地了解这一领域的相关知识要点,今天精选了5篇关于LLM领域的优秀文章。为便于大家阅读,我们仅列出文章标题、主要内容概要以及核心要点。如果您对某篇文章感兴趣,可以点击后面的链接访问完整内容。



一、LLM训练-pretrain

本文探讨了自研预训练模型的意义、数据准备、模型结构选择、训练技巧、评估方法和流程,介绍Megatron和deepspeed训练框架的利弊以及训练效率优化和评估指标。

自研预训练模型的意义在于掌握 pretrain 的技术能力,满足特定需求、控制数据和模型质量,并且可以实现宣传科研能力、埋彩蛋等非技术性价值。数据获取、清洗、去重、配比和顺序等流程都对预训练模型质量有着关键影响,作者建议组建数据团队来获取数据,爬虫或购买是必须的,网上开源数据集在清洗之后根本不够使用,“清洗”作为数据环节最最核心的工作,可以利用模型对 pretrain 数据的质量进行打分,以及要尽可能对数据进行脱敏,把训练数据中涉及到的人名、电话号码、邮箱等剔除出去,避免构成隐私侵犯。对 T 级别的数据进行去重是数据环节最考研工程能力的环节,需要选择合适的去重粒度和实现方式避免重复数据对模型训练的影响,使用BERT家族模型进行数据分类,根据不同类别调整处理策略,打好类别后再进行配比工作。pretrain 的本质是一个教模型学知识的过程,数据顺序很重要,作者推荐 llama 的 In context pretrain 工作:利用语义相似度,优先将最相似的 document 进行拼接,从而构成语义更加连贯流畅的上下文。数据处理和模型训练独立进行,保证GPU持续训练,应该标记数据使用次数,降低高频数据被选中概率,合理设置数据块大小和检查点保存机制。在数据环节都串起来后,不要盲目去开始训练,先在小模型上做好实验,pretrain阶段的实验需要做得更加鲁棒。

除此之外,文章在模型训练、模型评估等方面也做了相应探讨。

https://zhuanlan.zhihu.com/p/718354385

作者:ybq

二、LLM训练-sft

本文探讨了大模型sft的训练、评估和调试方法。强调数据多样性和质量的重要性,介绍利用GPT4生产数据、特殊token标记和复杂指令处理等技术,通过实战经验和案例分析,提出夹逼准则和人机结合评估策略,旨在优化模型性能和解决过拟合问题。

SFT主要通过标注数据来引导模型遵循指令。SFT过程中的关键在于使用特殊的标记来定义对话角色。SFT面临的挑战包括模型生成速度与生成token数量的关系,以及如何避免模型产生幻觉——即模型生成错误信息。对于幻觉问题,文章指出,虽然完全消除广义幻觉较为困难,但可以通过SFT和强化学习(RLHF)使模型学会在不确定时拒绝回答。SFT训练数据的核心是数据多样性和数据质量。数据多样性包括“数据用途”和“数据形式”,每一条SFT训练数据必须要 task_type 类型,数据形式不能让模型找到规律。关键信息在 prompt 中的位置分布要足够随机。模型上线后的用户反馈是优化SFT的重要来源,形成用户日志到数据更新再到模型迭代的数据飞轮是保持模型性能的关键。另外,文中提到构建模型时应考虑鲁棒性,即模型应对表述不清或含有错误的提示仍能给出合理回应。对于特定领域的任务,如检索增强(RAG)、长文本处理等,则需要专门的数据集和技术手段来应对。例如,RAG需要建立有效的知识库检索机制,数据库知识准确率高于模型自己具备的知识。并确保模型在面对不同检索结果时的表现。而对于长文本处理,则需调整模型架构以支持更长的序列长度,并准备相应的训练数据。在监督微调(SFT)中,直接使用标准SFT方法比Lora更可靠。训练时遵循“小模型大学习率,大模型小学习率”,重视warmup,关注loss曲线变化。适度过拟合有助于指令遵循,但要避免对特定答案过拟合。通过优化训来数据来缓解过拟合,主要措施是删减对应 task_type 的数据,或是扩充该 task_type 的数据多样性。

SFT工作相对简单,只要有计算机基础并保持积极态度,即可胜任此类任务。

https://zhuanlan.zhihu.com/p/809229182

作者:ybq

三、LLM预训练与SFT数据配比调研

文章讨论了LLM预训练数据增强与清洗技术,如Qwen和LLAMA的数据处理方法,以及SFT数据配比实验。强调数据质量、多样性的重要性,并介绍不同模型的数据使用情况。

分析Qwen2和LLAMA3.1的数据预处理、数据增强、数据配比策略以及一些用于监督微调(SFT)的技术细节。重点强调Qwen2和LLAMA3.1在数据清洗、过滤、增强方面的方法,包括但不限于使用启发式过滤、模型过滤、数据扩充和长上下文训练等方式来提高数据质量。报告指出,LLM的训练数据量从几万亿token增长至数十万亿token,并且探讨了不同类型数据(如代码、数学推理、多模态数据)在总体数据中的比例分配。还提到了一种名为退火训练的技术,它可以用来评估小规模领域数据的价值。对 SFT 数据,LLAMA 与 Qwen 用了相似的数据处理技术,包括RS、清洗、话题分类、质量打分、难度打分、语义去重和合成数据,规模达2.7M。

随着模型规模的增长,数据配比策略逐渐成为商业秘密的趋势。


Dual Chunk Attention


Scaling Law实验


左图为浮点计算量与Loss的scaling law曲线

https://zhuanlan.zhihu.com/p/703825827

作者:天晴

四、LLM数据合成之后训练篇

文章探讨了利用LLM进行数据合成的三种方法:直接生成pair、生成问题或答案、以及模型自身迭代。通过Nemotron-4、META-REWARDING和I-SHEEP等实验,强调数据合成在提升模型性能中的作用,以及对生成数据质量评估的需求。

Nemotron-4 340B模型的训练中,超过98%的数据是合成生成的,通过人工标注部分数据训练reward模型,再利用此模型评估生成的pair质量,选择高质量的数据用于下一轮训练。这种方法与传统自训练方法的主要区别在于使用了强大的reward模型来选择高质量数据,而非简单的阈值规则。另一项研究提出了meta-judge的概念,模型在同一时间承担actor(生成响应)、judge(评估响应质量)和meta-judge(评估judge的判断质量)的角色,通过迭代训练提升模型性能。而I-SHEEP方法则更加简洁有效,通过生成响应、自我评估、过滤和监督微调的流程,实现了从无到有的持续自我对齐,尽管没有引入额外信息,但在实验中显示了显著的改进。

数据合成方法的核心在于如何准确评估生成响应的质量,这可以通过强大的reward模型或模型自我评估来实现。



https://zhuanlan.zhihu.com/p/715155768

作者:别拽我的红领巾

五、大模型SFT数据精选方法串讲:IFD、Supperfiltering、MoDS、CaR、Nuggets 与 LESS

本文探讨了大模型SFT数据的精选方法一些方法,包括IFD、Supperfiltering、MoDS、CaR、Nuggets和LESS等。强调数据质量、多样性和必要性的重要性,并推荐结合多种方法以提高模型性能。

非目标导向的方法,如IFD和Superfiltering,主要适用于无特定优化场景的通用模型。IFD通过计算Instruction-Following Difficulty(IFD)指标来评估数据集的价值,选取高IFD的数据以构建高质量训练集。Superfiltering则通过使用较小模型替代大模型来提高筛选效率。MoDS和CaR方法综合考虑数据质量、覆盖面和必要性,前者通过多步筛选实现,后者简化流程,但两者均需依赖外部评分模型。目标导向的方法,如Nuggets和LESS,侧重于特定应用场景的优化。Nuggets方法通过评估训练数据对测试集的增益效果来选择高质量数据。LESS方法则直接考察训练数据对测试集损失的影响,选择那些能最大化降低损失的数据作为训练集。这两类方法更贴近实际业务需求,能够针对具体场景优化模型性能。

确保数据集的高质量、多样性和必要性是关键。在实际工业落地中,推荐使用目标导向的方法,因为它们更贴合具体业务场景。同时,可以使用多种筛选方法结合的方法来增强模型的鲁棒性。需要注意数据叠加可能带来的非线性效应,避免数据冗余或相互冲突的问题。

通过上述方法的组合应用,可以有效提升SFT数据集的质量,从而更好地引导大模型生成高质量输出。



https://zhuanlan.zhihu.com/p/692647330

作者:周星星

景联文科技|数据采集标注|智能标注平台

助力人工智能技术,赋能传统产业智能转型升级

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
重磅!亚足联宣布争议决定,国足客战巴林形势有变

重磅!亚足联宣布争议决定,国足客战巴林形势有变

体育达人榜
2024-11-14 14:09:18
宁德时代董事长:马斯克不懂电池 圆柱形电池必定失败

宁德时代董事长:马斯克不懂电池 圆柱形电池必定失败

快科技
2024-11-13 17:15:09
从日入过万到八个月倒闭,全国开了上万家的零食店到底有什么猫腻

从日入过万到八个月倒闭,全国开了上万家的零食店到底有什么猫腻

寒士之言本尊
2024-11-14 11:07:28
不该被遗忘陈炯明:他的贡献,总是被一笔草草带过

不该被遗忘陈炯明:他的贡献,总是被一笔草草带过

霹雳炮
2024-11-12 13:00:03
太猖狂!温州附二医!又出来了

太猖狂!温州附二医!又出来了

温晓生
2024-11-14 20:52:18
乌克兰重申“不会与俄罗斯谈判”

乌克兰重申“不会与俄罗斯谈判”

参考消息
2024-11-14 13:57:18
这谁hold得住沙特93分钟破门,庆祝时看到边裁举旗集体破防

这谁hold得住沙特93分钟破门,庆祝时看到边裁举旗集体破防

直播吧
2024-11-14 19:19:01
突发!老板跑路了?上海曾经的“日料天花板”倒闭了?!时代的眼泪……

突发!老板跑路了?上海曾经的“日料天花板”倒闭了?!时代的眼泪……

上海BEST
2024-11-14 20:44:16
勇士官方:请立刻道歉!官方地图不但缺少台湾,甚至篡改五角星!

勇士官方:请立刻道歉!官方地图不但缺少台湾,甚至篡改五角星!

青青子衿
2024-11-13 23:01:46
媒体人:郑智父亲赛前过世,他回家处理后事;对日本他会回队报到

媒体人:郑智父亲赛前过世,他回家处理后事;对日本他会回队报到

直播吧
2024-11-15 01:00:15
方硕一家近照,34岁依旧很强,财富自由,老婆颜值高身材好

方硕一家近照,34岁依旧很强,财富自由,老婆颜值高身材好

大西体育
2024-11-14 10:02:45
心相印创始人被灭门,警局悬赏百万征集线索,真凶身份意想不到

心相印创始人被灭门,警局悬赏百万征集线索,真凶身份意想不到

青青会讲故事
2024-10-17 17:20:56
国足1-0绝杀后众生相:武磊5字评论,巴林主帅赛后大吵 球迷炸锅

国足1-0绝杀后众生相:武磊5字评论,巴林主帅赛后大吵 球迷炸锅

大秦壁虎白话体育
2024-11-15 01:38:14
最积阴德的三件事,你越去做,老天越保佑你!

最积阴德的三件事,你越去做,老天越保佑你!

神奇故事
2024-11-14 16:01:15
1968年,大将王树声食堂打饭,见一战士打了5份饭菜,顿感蹊跷

1968年,大将王树声食堂打饭,见一战士打了5份饭菜,顿感蹊跷

素年文史
2024-11-14 22:34:35
绍伊古现身珠海航展 参观中俄展台

绍伊古现身珠海航展 参观中俄展台

看看新闻Knews
2024-11-14 16:29:21
绍伊古现身航展!直奔9号馆,看完面色凝重,网友评论:真实搞笑

绍伊古现身航展!直奔9号馆,看完面色凝重,网友评论:真实搞笑

晓徙历史
2024-11-14 15:25:45
乔治打趣:赛后我跟雷迪克说我有时间限制 别包夹了让我打吧

乔治打趣:赛后我跟雷迪克说我有时间限制 别包夹了让我打吧

直播吧
2024-11-14 22:42:24
太炸裂!知名演员意外发出“裸照”后秒删,公司回应……

太炸裂!知名演员意外发出“裸照”后秒删,公司回应……

极目新闻
2024-11-14 19:29:16
珠海驾车冲撞行人案 这才是从源头防范的根本?!

珠海驾车冲撞行人案 这才是从源头防范的根本?!

个案说法
2024-11-13 23:03:24
2024-11-15 02:06:44
景联文科技
景联文科技
做AI行业客户的数据参谋
311文章数 0关注度
往期回顾 全部

科技要闻

官宣!极氪领克合并,吉利走向大整合

头条要闻

世预赛:国足客场1-0巴林收获两连胜 张玉宁绝杀

头条要闻

世预赛:国足客场1-0巴林收获两连胜 张玉宁绝杀

体育要闻

本季英超最炸裂的瓜,由一名裁判制造

娱乐要闻

娜扎张云龙恋情曝光!甜蜜细节被扒

财经要闻

"机构举报游资"导致A股大跌?

汽车要闻

七块屏幕四座布局 仰望U7中式百万座舱

态度原创

教育
家居
亲子
本地
数码

教育要闻

16岁中学生简历引关注 正高职称 还研发火箭?

家居要闻

现代潮流空间 轻奢现代风并重

亲子要闻

面容缺陷宝宝问话妈妈,为什么小朋友说自己丑,扎了辫子还是没人喜欢

本地新闻

重庆记忆|别再CityWalk了 来云端之眼CityClimb

数码要闻

红魔氘锋能量块 120W 三口氮化镓套装上架,首发 139 元

无障碍浏览 进入关怀版