网易首页 > 网易号 > 正文 申请入驻

字节跳动新一代思考模型Seed-Thinking-v1.5:推理更强、成本更低、场景更广

0
分享至

2025年4月14日,字节跳动正式发布新一代思考模型Seed-Thinking-v1.5。作为字节在通用人工智能(AGI)方向的重要布局,该模型在数学、编程、科学等高门槛任务中表现惊艳,通过架构、训练、评估方法的全方位重构,在推理效率和泛化能力上实现了平衡。在大模型赛道从通用生成迈向通用推理的关键拐点,Seed-Thinking-v1.5所代表的范式转变,值得被深入剖析。

01

性能亮眼

任务性能与成本的“非对称胜出”

根据公布的数据,Seed-Thinking-v1.5在多个权威评测中表现出色:

Benchmark

Seed-Thinking-v1.5

DeepSeek R1

OpenAI o3-mini

Gemini 2.5 Pro

AIME 2024

86.7

79.8

87.3

92.0

GPQA

77.3

71.5

79.7

84.0

Codeforces pass@8

55.0

45.0

67.5

56.3

LiveCodeBench v5

64.9

64.3

74.1

70.4

  • 数学推理(AIME 2024):86.7%,追平OpenAI o3-mini

  • 编程能力(Codeforces pass@8):55.0%,逼近Gemini 2.5 Pro

  • 科学知识问答(GPQA diamond):77.3%,接近OpenAI同级模型

  • 多任务评估(MMLU-Pro):87.0%,体现强泛化能力

在通用任务中,模型的人类偏好评估超出DeepSeek R1达8%,说明其在创意生成、写作指令、复杂对话等非结构化场景也具备广泛适用性。

轻量高效的200B MoE模型

与同类SOTA模型相比,Seed-Thinking-v1.5最大亮点在于采用Mixture-of-Experts(MoE)混合专家架构

  • 总参数量200B,仅20B激活,相比DeepSeek R1单位推理成本下降50%

  • 支持大规模并行与专家路由技术,有效控制资源使用并提升训练稳定性

  • 搭载自研HybridFlow模型编程语言与三层并行训练系统,确保大规模参数下的训练效率和鲁棒性

这使得Seed-Thinking-v1.5不仅在性能上接近多家顶级厂商的旗舰模型,同时具备更强的部署灵活性和运行经济性。这意味着,在大模型算力日益昂贵的背景下,字节跳动通过结构稀疏化+精准激活+推理路径优化,有效达成低成本可控通用推理

02

架构创新

像人一样思考的能力范式

如何构成类人的思考范式,字节给出了它的答案,数据、训练、评估三位一体

1)架构层:技术栈三大支撑

  • HybridFlow 编程模型:融合动态图与静态图优势,支持算法快速试验和高效部署。

  • 流式推理系统(SRS):实现推理异步解耦,训练速度提升3倍,保持95%稳定性。

  • 三层并行机制:张量并行、专家并行、序列并行动态协同,优化GPU资源利用率。

这一系列技术栈优化,使得200B参数的MoE模型训练与部署不再是“暴力算力堆叠”,而是一种有组织、有策略的分布式协作机制。


2)数据层:三重清洗与策略增强

模型背后的数据策略是其逻辑能力的核心来源。

  • 可验证数据(如数学与代码):经过人工筛选 → 模型过滤 → 多模型验证三重清洗,提炼出10万道高质量难题;引入整数化改造与沙箱验证机制,避免“形式正确、逻辑错误”。

  • 非可验证数据(如写作、对话):依赖豆包1.5 Pro训练集进行迭代,通过pairwise奖励机制模拟人类的隐性偏好。

这种精细化的数据策略,不仅增强了模型对硬逻辑的把握能力,也保留了软创造的生成力。


3) 奖励机制层:双轨制塑造认知力

  • Seed-Verifier → Seed-Thinking-Verifier:推理步骤逐行比对,识别作弊路径、奖励真实推理链。

  • 非结构化任务中引入A/B测试奖励机制:通过数千万次人类偏好评估,优化情感、语义一致性。

创新的硬指标 + 软偏好协调机制,有效解决了通用模型长期以来难以同时兼顾逻辑严谨与生成丰富的悖论。

03

对B端的意义

为复杂任务而设计的评估体系

字节团队提出,“现有基准测试题目不再足以区分强弱模型”。因此自研了两大评估基准:

  • BeyondAIME:涵盖100道超高难度、无标准答案的题干,用于测试模型在缺乏显式答案支持下的纯逻辑推理能力

  • Codeforces 定制评估集:动态难度调节 + 多版本对比,确保能对代码生成能力进行深度刻画。

这种主动构建评估鸿沟的做法,提升了模型迭代效率,也推动了行业对模型评测深度的重新理解。

标准化接口+可控成本=落地可能性

对B端生态的意义如何?Seed-Thinking-v1.5 通过火山引擎对外开放接口,向开发者提供如下能力:

  • 结构化推理能力 API(如数学、代码任务):可用于教育评测、数理自动标注、低代码平台开发等。

  • 通用生成任务 API(如问答、摘要、写作):满足内容生成、客服问答、文档分析等To B需求。

  • 成本可控部署支持:通过稀疏MoE技术,可实现局部部署或轻量版本调用,便于中小企业按需采买。

这一战略组合表明,Seed-Thinking-v1.5不仅是一个科研成果,更是一种“可控成本下可落地的推理即服务(RaaS)”解决方案。

在过去一年里,大模型的发展已从语言生成进入认知推理阶段。

Seed-Thinking-v1.5以其技术可解释性、训练可控性、场景适配性、成本优化性的多重优势,预示着下一代通用AI模型不再是“更大”,而是“更像人类思考”。

从顶尖竞赛(AIME、GPQA、Codeforces)到通用对话,从结构化逻辑到开放性创意,在精度、效率和泛化力上实现协同提升,将是通用人工智能迈向实际生产力的关键转折。

更多内容,可参考官方发布的文献:https://github.com/ByteDance-Seed/Seed-Thinking-v1.5/blob/main/seed-thinking-v1.5.pdf

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
按太慢!护士跪床抢救,被家属扇耳光,反手投诉:态度冷漠!

按太慢!护士跪床抢救,被家属扇耳光,反手投诉:态度冷漠!

川渝视觉
2026-05-19 12:57:00
英超裁判组织向诺丁汉森林致歉,VAR争议判罚终结八场不败

英超裁判组织向诺丁汉森林致歉,VAR争议判罚终结八场不败

绿茵狂热者
2026-05-19 02:33:55
马斯克和范冰冰什么关系?偷税8亿的范冰冰,如今在国外重回巅峰

马斯克和范冰冰什么关系?偷税8亿的范冰冰,如今在国外重回巅峰

追风小狗
2024-11-12 21:52:56
曾是世界最大“茄子珍珠”,慈禧爱不释手,失踪多年后现身在日本

曾是世界最大“茄子珍珠”,慈禧爱不释手,失踪多年后现身在日本

收藏大视界
2026-05-18 18:30:12
高市早苗回访李在明老家 两人握手近半分钟!

高市早苗回访李在明老家 两人握手近半分钟!

看看新闻Knews
2026-05-19 19:54:35
来自杭州的A股最贵*ST股摘帽了,今日停牌一天

来自杭州的A股最贵*ST股摘帽了,今日停牌一天

都市快报橙柿互动
2026-05-19 00:29:29
忍了7年!张本智和逃离日本,全家搬到德国,背后原因让人意外

忍了7年!张本智和逃离日本,全家搬到德国,背后原因让人意外

秋姐居
2026-05-18 22:08:40
快讯!我国或将不再免费允许日本飞机飞越领空!

快讯!我国或将不再免费允许日本飞机飞越领空!

达文西看世界
2026-05-19 10:02:14
放弃小蜘蛛!巴萨 6700 万锁定阿森纳头号射手,阿尔特塔藏着大招

放弃小蜘蛛!巴萨 6700 万锁定阿森纳头号射手,阿尔特塔藏着大招

澜归序
2026-05-19 06:42:39
东风导弹泄密案!间谍郭万钧一家三口,全部被处以死刑

东风导弹泄密案!间谍郭万钧一家三口,全部被处以死刑

番外行
2026-03-31 08:28:28
伊朗“全民备战”,主持人演播室内直播开火 也有人轻声说:不要战争

伊朗“全民备战”,主持人演播室内直播开火 也有人轻声说:不要战争

红星新闻
2026-05-19 13:35:47
“杨梅是我们的饭碗,我们比谁都珍惜!”浙江果农纷纷出示检测报告;首轮巡查未发现类似违规添加

“杨梅是我们的饭碗,我们比谁都珍惜!”浙江果农纷纷出示检测报告;首轮巡查未发现类似违规添加

上观新闻
2026-05-19 08:11:26
卫报:若马雷斯卡执教曼城,切尔西有望获得一笔竞业赔偿金

卫报:若马雷斯卡执教曼城,切尔西有望获得一笔竞业赔偿金

懂球帝
2026-05-19 19:29:16
《百年孤独》最残忍的一句话:陪你走完这一生的从来不是爱情也不是亲情,是你自己都没发现的灵魂里这两样东西

《百年孤独》最残忍的一句话:陪你走完这一生的从来不是爱情也不是亲情,是你自己都没发现的灵魂里这两样东西

心理观察局
2026-05-17 08:35:17
戛纳红毯中国明星出尽洋相,摆造型无人问津,轮番被安保驱赶

戛纳红毯中国明星出尽洋相,摆造型无人问津,轮番被安保驱赶

糊咖娱乐
2026-05-18 15:21:28
毛主席遗体变形变色?每年百万美金护理费?负责人徐静:无稽之谈

毛主席遗体变形变色?每年百万美金护理费?负责人徐静:无稽之谈

顾秋韵
2026-05-15 02:13:46
岳母来我家给我60万我不收,回去半年又来我家:以后你给我养老吧

岳母来我家给我60万我不收,回去半年又来我家:以后你给我养老吧

惟来
2026-05-18 19:50:52
央视一锤定音?8艘055大驱换装新型高超弹,五角大楼连夜改预案?

央视一锤定音?8艘055大驱换装新型高超弹,五角大楼连夜改预案?

阿讯说天下
2026-05-19 05:37:23
神舟二十三号就位!3位航天英雄无缘此次飞天

神舟二十三号就位!3位航天英雄无缘此次飞天

Thurman在昆明
2026-05-19 13:03:04
毛主席原定1950年举行开国大典,斯大林得知后当场变脸警告刘少奇:必须立刻改期!

毛主席原定1950年举行开国大典,斯大林得知后当场变脸警告刘少奇:必须立刻改期!

寄史言志
2026-05-09 19:13:45
2026-05-19 20:36:49
AI扬帆起航
AI扬帆起航
AI咨询、知识分享,人人都能成为AI开发者、使用者
106文章数 1关注度
往期回顾 全部

科技要闻

马斯克败诉,法院判他起诉OpenAI太晚了

头条要闻

菲总统称不希望卷入任何与台湾有关的战争 外交部回应

头条要闻

菲总统称不希望卷入任何与台湾有关的战争 外交部回应

体育要闻

文班亚马:没拿到MVP,就证明自己是MVP

娱乐要闻

姚晨删博难平众怒,为什么她还能蹦哒

财经要闻

从卖流量到卖Token,运营商算力生意破局

汽车要闻

配置全家桶 全新海狮05这次升级全在点上

态度原创

旅游
艺术
时尚
家居
公开课

旅游要闻

文旅新探|纳木错“开湖日”:生态底色折射文旅亮色

艺术要闻

唐代书仙写的《出师表》,赵孟頫毕生都在学

休闲阔腿裤怎么穿才美?看看这些穿搭公式,解锁不重样的造型

家居要闻

观山隐秀 心灵沉淀

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版