网易首页 > 网易号 > 正文 申请入驻

刚刚,豆包1.5模型家族硬核登场!「深度思考」秘笈曝光,多模态冲爆榜单

0
分享至

新智元报道

编辑:编辑部 HYZ

【新智元导读】刚刚发布的豆包大模型1.5,不仅多模态能力全面提升,霸榜多个基准;更难得的是,它在训练过程中从未使用过任何其他模型生成的数据,坚决不走蒸馏「捷径」。

本周开始,AI大模型春晚正式迎来小高潮。

就在刚刚,字节跳动也加入狂欢行列,豆包大模型1.5版正式发布!

豆包大模型1.5的模型基础能力,再次展现出超强进化,在多个公开测评基准中成绩亮眼。

而它的多模态能力,无论语言、视觉理解还是实时语音,也都实现了全面领先。

综合指标

视觉理解指标

深度思考模型指标

本就人气居高不下位于Top 3的豆包,带给用户的体验将更上一层楼。

豆包,少数不蒸馏的模型

我们最常见的问题之一——A模型说自己是B模型,就是因为它们「蒸过头」导致的。

少数例外,也就是没有对任何其他模型进行过蒸馏的,就数Claude、Gemini和豆包了。

在「晚点」的专访中,MiniMax的闫俊杰曾表达过这样的观点。

实际上,做一个看上去像o1的模型其实没有那么难,只要蒸馏几千条o1数据就可以了。

这也是为什么在o1发布之后,很多公司都非常快地实现了跟进。

的确,蒸馏是一种路径,但是不是捷径,却不好说。

根据文本模型中存在的「对齐税」,如果一定要把模型去对齐一个别的模型的结果,那必然会有一些能力受限。

相比之下,豆包走的,是一条独属于自己的路。

视觉理解能力超强进化

视觉理解方面,团队这次在多模态数据合成、动态分辨率、多模态对齐、混合训练上进行了全面技术升级,让模型在视觉推理、文字文档识别、细粒度信息理解、指令遵循方面的能力进一步增强了。

而且,模型的回复模式还变得更加精简、友好。

现在,豆包大模型1.5能读懂不同分辨率和不同长宽比的图片,支持百万级分辨率,能更清晰得识别内容。

就比如,手拍题有时因为光线问题,或是像素问题,分辨率不是很高。即便如此,也难不倒豆包大模型1.5。

豆包大模型1.5堪称一款作业神器,那些想要确认解题是否正确的学生们,完全不用等老师、父母纠错了。

AI不仅给出了打分,还详细分析了解题过程,对于错误的题目,还会纠正。

接下来,上传一系列图片,然后让它描述并分类。

豆包大模型1.5蹭蹭蹭地写起了小作文,描述地全面又生动,并在每张图片描述内容后面,给出了正确的分类。

接下来,上传一张锡箔纸包好的红薯,一张微波炉「加热黑名单」,以及食物加热时间表,然后问图一食物放入微波炉加热需要多长时间?

豆包大模型1.5一眼识别出,图一是被锡箔纸包装的食物,再从另外两张图中推断出正确逻辑。

还有那些身材管理者,想要知道食物的热量,直接将图片扔给豆包大模型1.5就可以了。

更惊艳的是,当你给出任意一组图片,还能让豆包大模型1.5为其配上标题和简短的描述。

看得出,它的文学功底非常深厚,生成的标题与图片高度匹配,超有意境。

当然了,你还可以让豆包大模型1.5根据图片,生成朋友圈文案、图像故事、图片点评等等,各种文案风格全由你掌控。

值得一提的是,虽然豆包大模型1.5不是专门的推理模型,但它的推理能力可一点都不弱!

比如下面这道数学题,模型给出的解题过程,不仅十分完整,而且也非常清晰。直接放进例题参考答案里,都毫无违和感那种。

语音多模态:欲哭无泪,声音颤抖,全部拿捏

这次豆包的语音多模态模型,真正实现了端到端的语音对话。

语言表现力、控制力、情绪承接上堪称一绝,而且还低时延,对话中可随时打断。

我们可以让豆包用欲哭无泪的语气说话,或者发出颤抖、紧张、开心的声音,听听,这情绪拿捏得可太到位了。

这种语音对话中真正意义的语音理解生成端到端,是如何做到的?

这都要归功于,团队提出的全新Speech2Speech端到端框架。

它通过原生方法将语音和文本模态进行深度融合,从而实现了语音理解生成端到端。

并且,在语音对话效果上,它相比传统的ASR+LLM+TTS的级联方式有了质的飞跃!

因此,它不仅拥有高理解力(高智商),还拥有前所未有的语音高表现力与高控制力,而模型整体在回复内容和语音上,还有了高情绪承接能力。

而在框架设计上,研究者将语音和文本Token进行融合,为语音多模态数据的Scaling提供了必要条件。

在预训练阶段,他们开发了多样化的数据生产和使用方式,同时在训练上探索了多种有效方案,通过Scaling最大化地将语音和文本能力进行深度融合。

在后训练阶段, 通过融合高表现力与智商数据的均衡, 数据筛选以及多模态RL阶段的专项能力提升让模型在智商、语音表现力等多方面达到最优。

独立开发深度思考模型,解锁智能边界

探索智能的边界,如同一场永无止境的冒险。

而推理,是智能的核心之一。

为此,团队采用了大规模强化学习(RL)的方式,在不依赖其他模型数据情况下,显著提升了模型的推理能力。

他们通过RL算法突破和工程优化,充分发挥出了测试时Scaling的算力优势,成功完成了RL scaling。

由此,豆包深度思考模式也就诞生了。

目前,Doubao-1.5-Pro-AS1-Preview已经在AIME测试中,成为业界领先的模型。

并且,随着RL的持续,模型能力还在不断提升中。

它的出现,不仅让模型推理能力在不同领域中的泛化,还让我们看到了智能边界被拓宽的可能性。

训推一体,性能与推理完美平衡

豆包大模型1.5不仅交出了漂亮的成绩单,更能轻松应对海量用户的海量推理需求。

这么牛的表现,究竟是怎么做到?

简单来说,豆包大模型1.5从预训练阶段,就坚持了「训练-推理」一体设计,在性能和推理效率之间,实现了最优的平衡。

高效预训练

豆包大模型1.5采用了稀疏MoE架构,虽然总参数不及LLaMA-3.1-405B,性能却能碾压超大稠密的预训练模型。

这其中的秘诀是什么?

首先,团队通过对稀疏度Scaling Law研究,确定了性能和效率比平衡的稀疏的比例。并对模型的结构和训练算法进行了优化。

在9T tokens数据上的验证结果显示,豆包模型有着更优的数据质量和训练效果:

- 仅使用1/7稠密模型参数量的MoE模型,就能超越稠密模型的性能,直接将性能杠杆提升至7倍(通常是3倍)

- 稠密模型和MoE模型的性能表现,普遍优于用15T tokens训练的LLaMA-3.1-405B

训练loss图;性能对比图

在预训练模型基础上,团队还设计了一系列模型参数动态调整算法,可以基于具体应用对模型性能的需求,从模型深度、宽度、MoE专家数、激活专家数、隐藏token推理等不同维度,对模型参数进行扩增和缩小。

其中,较小的预训练模型可以提高团队的迭代开发效率,同时并发支持多个产品线。

大规模推理的技术优化

由于Prefill/Decode与Attention/FFN之间,都具有独特的计算和访存的特性,需要针对性的优化策略。

为此,团队通过异构硬件和不同低精度优化策略的结合,实现了在确保低延迟的同时大幅提升吞吐量,在降低总成本的同时兼顾TTFT和TPOT的最优化目标。

具体来说,在Prefill阶段,团队在多种计算访存比高的设备上采用了chunk-PP Prefill Serving,使得线上系统Tensor Core利用率接近60%。

到了Decode阶段,计算不是问题,但对通信和访存能力要求较高,因此需要采用计算访存比较低的设备Serving来换取更高的ROI。

在算子层面,团队还实现了计算与通信的高效重叠(overlap),从而保证了多机分布式推理的稳定性和高效性。

高效后训练流程

后训练阶段,团队精心构建了一套高度自主的数据生产体系。并且,在过程中完全没有使用任何第三方数据。

SFT阶段,团队又开发了一套算法驱动的训练数据优化系统,涵盖训练数据多样性优化以及精确人题匹配功能,并引入了模型自演进(Self-evolve)技术。

这些创新,帮助团队提升了数据标注的多样性和难度,形成了模型性能提升的良性循环。

在Reward Model部分,他们构建了包含prompt分布优化、response筛选、多轮迭代和active learning的完整数据生产pipeline。

到了强化学习的阶段,模型的优化同样令人瞩目,其中在多角色训练推理一体框架、价值函数、自适应数据分布调节机制等方面,取得了创新。

此外,借鉴字节在推荐、搜索和广告领域的ABTest丰富经验,团队研发了基于用户反馈的高效PostTraining全流程。

基于豆包大规模用户反馈,他们又构建了从问题发现、数据挖掘、人机结合标注到快速迭代的闭环优化系统。

由此,用户数据飞轮可以让团队持续获取真实反馈,不断提升模型的实际使用体验。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
小户型逆袭!聪明人这样装修,直接多出一间房,看完我想砸了重装

小户型逆袭!聪明人这样装修,直接多出一间房,看完我想砸了重装

装修秀
2026-05-27 19:41:13
“韬”定律到底新不新,台积电的发展历程告诉你

“韬”定律到底新不新,台积电的发展历程告诉你

科学伙伴
2026-05-27 10:56:09
17岁张本美和亲口揭穿:赢王曼昱后落泪不是激动,是被孙颖莎吓哭

17岁张本美和亲口揭穿:赢王曼昱后落泪不是激动,是被孙颖莎吓哭

酷侃体坛
2026-05-28 09:33:44
48小时内,中日两波争端,钓鱼岛有变,中方清场升级

48小时内,中日两波争端,钓鱼岛有变,中方清场升级

大黑爱旅游
2026-05-27 15:56:54
粉木耳,被偷走的六年

粉木耳,被偷走的六年

智远同学
2026-05-27 21:55:18
福建通过一批人事事项

福建通过一批人事事项

海峡网
2026-05-26 19:36:05
A股开盘:三大指数集体低开,贵金属、先进封装、半导体等概念走弱

A股开盘:三大指数集体低开,贵金属、先进封装、半导体等概念走弱

界面新闻
2026-05-28 09:27:43
新加坡媒体:警惕!《给阿嬷的情书》正在东南亚华人社会悄悄蔓延

新加坡媒体:警惕!《给阿嬷的情书》正在东南亚华人社会悄悄蔓延

手工制作阿歼
2026-05-27 09:00:23
她36岁离婚,52岁坐牢,59岁儿子离世,如今62岁孤苦伶仃

她36岁离婚,52岁坐牢,59岁儿子离世,如今62岁孤苦伶仃

青杉依旧啊啊
2026-05-27 13:07:32
赖清德怎么也没料到,大陆还没动手收台湾,岛内兵源就先出问题了

赖清德怎么也没料到,大陆还没动手收台湾,岛内兵源就先出问题了

国际阿尝
2026-05-27 17:46:18
这一回,轮到烟草员工开始没心情上班了?干活没底气了?

这一回,轮到烟草员工开始没心情上班了?干活没底气了?

今朝牛马
2026-05-26 20:40:56
联合国总部火药味十足,中国划下“四硬指标”,将了美国一军

联合国总部火药味十足,中国划下“四硬指标”,将了美国一军

刘振起观点
2026-05-28 09:30:26
上海两大外伤势动态!白边现身走路不利索,洛夫顿伤情问题不大!

上海两大外伤势动态!白边现身走路不利索,洛夫顿伤情问题不大!

篮球资讯达人
2026-05-27 23:14:07
几月份退休最划算、几月份退休最吃亏,很有讲究,选错月份真吃亏

几月份退休最划算、几月份退休最吃亏,很有讲究,选错月份真吃亏

细说职场
2026-05-27 18:42:58
在西藏遇到白色帐篷,为啥要躲着?老牧民直言:进去谁也帮不了你

在西藏遇到白色帐篷,为啥要躲着?老牧民直言:进去谁也帮不了你

抽象派大师
2026-05-07 00:28:27
朱媛媛去世不到1年,52岁辛柏青被“逼”再婚,吴越的委屈藏不住了

朱媛媛去世不到1年,52岁辛柏青被“逼”再婚,吴越的委屈藏不住了

草莓解说体育
2026-05-28 09:11:36
岳父是高管,岳母开公司,娶了乒乓冠军的许昕,在上海儿女双全

岳父是高管,岳母开公司,娶了乒乓冠军的许昕,在上海儿女双全

翰飞观事
2026-05-13 14:30:23
躺赚1400万!和刘翔复合后,如今定居上海,实现财富自由,丁克10年越活越潇洒

躺赚1400万!和刘翔复合后,如今定居上海,实现财富自由,丁克10年越活越潇洒

阿废冷眼观察所
2026-05-27 11:54:26
砸下22.9亿美元,美军要马斯克建网,还要他2027年底前交货

砸下22.9亿美元,美军要马斯克建网,还要他2027年底前交货

西北汉子
2026-05-28 08:50:06
新欢不保?杨子家族爆大雷,和黄圣依离婚真实目的藏不住了!

新欢不保?杨子家族爆大雷,和黄圣依离婚真实目的藏不住了!

今夜繁星坠落
2026-05-20 12:30:27
2026-05-28 10:11:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15323文章数 66892关注度
往期回顾 全部

科技要闻

拼多多股价跌10%:管理层称业绩难免波动

头条要闻

牛弹琴:伊朗180度转弯先发制人 美国迅速回应

头条要闻

牛弹琴:伊朗180度转弯先发制人 美国迅速回应

体育要闻

这群老阿姨,是最硬核的马刺球迷

娱乐要闻

王鹤棣风波连累父亲炸串店遭差评?

财经要闻

一线调查丨燃油车“甩卖”也难卖

汽车要闻

限时补贴价9.28-10.98万 MG 4X正式上市

态度原创

游戏
教育
数码
亲子
时尚

Deck都涨了 Steam主机只能更贵!千美元以下不现实

教育要闻

微信才是学英语的神器,不懂的话就亏大了!看完涨知识

数码要闻

KeySmart推出钱包追踪器:两张卡厚,满电续航24个月

亲子要闻

孩子没被幼儿园录取没学上!网友:晚生二十年怕是只有幼儿园文凭

丑到离谱的牛马鞋,新中产抢疯了

无障碍浏览 进入关怀版