网易首页 > 网易号 > 正文 申请入驻

不更大,更聪明:字节用Seed-1.5打响国产大模型 “差异化战争”

0
分享至

作者|高见科技论 高恒

在模型参数的 "军备竞赛" 陷入边际效益递减之际,字节跳动没走寻常路。

4月14日,字节跳动首次公开其自研思考模型Seed-Thinking v1.5的核心技术细节,宣布将在17日通过火山引擎面向企业用户开放接口。这是字节首次在大模型技术路径上完整亮相,也是继 "豆包" 之后,试图打破通用模型评价体系、重塑任务定义的又一次尝试。

不同于GPT-4、Gemini 等以超大参数模型主导的路线,Seed-Thinking v1.5采用了2000 亿参数规模的 MoE(混合专家)架构,但仅激活其中的10%左右,即20B专家参数进行推理。这意味着,在保持高性能的前提下,它的单位推理成本相比DeepSeek R1降低了50%,大幅拉低了通用大模型在实际使用中的成本门槛。

成本优化只是表象。更关键的是,字节用Seed-Thinking v1.5向外界释放出一个信号:国产大模型的竞争,已经从全域追赶迈入了 "专精路线"的分化阶段。而Seed-Thinking v1.5想做的不是 "通吃一切" 的大一统模型,而是 "会思考" 的差异化代表。

01·数学、编程、科学推理:构建 AI 的 "强智力肌肉"

回归大模型的能力本质,字节的思考模型强调的并非语言生成能力的花哨场景,而是对可验证推理能力的深耕,即AI是否真正 "理解" 了逻辑、规则与推导关系。

这一技术哲学直接体现在评测成绩上:

· 数学推理:Seed-Thinking v1.5在AIME 2024(美国高中数学竞赛)中取得86.7分,与OpenAI的o3-mini-high 相当,并独立构建了难度更高的BeyondAIME 数据集(100道无答案题干题目),追求评测维度的 "天花板效应" 突破。

· 编程能力:Codeforces pass@8 得分为55%,接近Gemini 2.5 Pro;不仅能解题,还能优化算法复杂度。

· 科学推理:GPQA 得分达到77.3%,同样进入全球第一梯队。

这些任务背后,有一个共同点:结果可以被精确验证。这也正是Seed-Thinking v1.5真正重兵布防的方向。相比于文字润色、诗词创作、图像描述等 "软偏好" 任务,字节跳动更关注的是模型在硬逻辑任务上的极限性能和稳定性,这不仅是通用模型泛化能力的基石,也更适合企业级应用的落地需求。

02·MoE之后:参数不再是王道,成本效率比才是竞争核心

在OpenAI走向GPT-5的多模态跃进之时,国内模型厂商普遍面临一个两难困局:

1. 如果继续 "拉参数、卷规模",云计算和算力成本将进一步压垮商业化路径;

2. 如果保守压缩模型,能力容易陷入 "知识贫瘠" 和 "逻辑跳跃" 的中庸陷阱。

而字节跳动选择了MoE架构这条并不新、但难度极高的 "中间道路":既保留超大模型的知识表示能力,又通过动态激活极少专家,完成 "精而不弱" 的推理执行。

通过张量并行、专家并行、序列并行组成的三层分布式架构,Seed-Thinking v1.5在万亿参数下实现了接近 95% 的训练稳定性;结合 KARP 算法动态分配 GPU 负载,其推理资源效率在大模型圈内首次达到了 "高可控+高经济性" 的平衡点。

底层的流式推理系统(SRS)和HybridFlow 编程框架也成为这一代模型的加速引擎,不仅支持异步推理与模型演进解耦,还实现了训练效率的3倍提升,为未来自演化模型预留了技术接口。

在推理成本逐步决定大模型商业化边界的今天,这场架构路线的选择,或许比模型分数更能决定胜负。

03·双轨训练:可验证与不可验证任务的 "范式分流"

传统大模型训练流程中,所有数据几乎一视同仁。但在字节跳动看来,"硬对错" 和 "软偏好" 本质上不该混为一谈,评估与奖励体系也必须分别演化。

于是,Seed-Thinking v1.5首次提出了 "双轨训练奖励机制":

· 对于数学、代码等可验证任务,引入Seed-Verifier 2.0评估器,放弃了字符级匹配,转而使用 "推理过程对齐" 机制来识别模型是否真正理解了问题,从而避免奖励欺骗。

· 对于创意写作、问答等软性任务,则使用pairwise对比方法,通过千万次 A/B 测试捕捉人类情感偏好,弥补指标缺失。

更关键的是,在混合任务场景下,字节跳动并未采取简单加权平均策略,而是开发了一套任务类型识别机制,实现硬指标与软偏好之间的协调 —— 这让模型能更灵活地在 "绝对正确" 与 "相对优秀" 之间切换语言模式 。

此外,其监督微调(SFT)训练数据中30万条为高质量、可验证实例,剩余10万条为人工优选创意数据。这一比例本身也透露了模型设计的目标方向 —— 强调思维与过程,而非单纯的语言 "漂亮话"。

04·字节的 "大模型方法论":行业化、任务化、模块化

Seed-Thinking v1.5的落地,某种意义上不是为了比肩GPT-4这样的超级模型,而是试图为 "模型细分场景化" 做出一种范式定义。

这种范式包含三重路径:

· 行业化:通过在火山引擎开放接口,推动其在教育、医疗、金融等 "可验证任务密集型" 行业率先落地;

· 任务化:将通用大模型拆解成模块化组件,用更低成本满足垂类需求,逐步构建 "多任务共生模型" 体系;

· 模块化:依托 MoE 架构和流式推理机制,实现模型组件化、可组合、可升级,适配不同场景与算力环境。

与其说字节在造一个万能的大脑,不如说它在构建一个可控的、分布式的 "思维工厂"。在这里,每一道逻辑,每一次决策,都是在计算效率与思维路径之间反复权衡后的产物。

写在最后:参数时代的终结,AI 进入 "成本约束下的智能战"

在通用大模型不断拔高天花板之时,字节跳动用Seed-Thinking v1.5重新定义了 "模型能力" 的维度边界:不是跑分最强、不是对话最顺,而是最懂得 "任务分层" 和 "资源利用效率" 的那一个。

这是一次AI范式的调整:从算力驱动,走向效率导向;从一体化模型,走向模块化系统;从语言对齐,走向推理对齐。

也许未来的大模型之战,拼的不是谁更 "聪明",而是谁能以更低成本、更高可靠性,把 "聪明" 变成落地价值。而这一轮产业升级的节奏,Seed-Thinking v1.5已经开始奏响。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
50岁李小冉机场吃面,褪去滤镜才懂,普通人的衰老藏不住

50岁李小冉机场吃面,褪去滤镜才懂,普通人的衰老藏不住

庭小娱
2026-05-13 12:06:40
此地无银三百两!怀特塞德,给球迷留下了5个谜题

此地无银三百两!怀特塞德,给球迷留下了5个谜题

体育哲人
2026-05-30 22:04:05
买买买!大促前一晚上海市民通宵排队装备齐全

买买买!大促前一晚上海市民通宵排队装备齐全

看看新闻Knews
2026-05-30 20:44:15
解放军少将质问日方:有没有资格在国际场合大谈防务合作?

解放军少将质问日方:有没有资格在国际场合大谈防务合作?

环球网资讯
2026-05-30 23:18:29
耿同学的北航博导杨昀:论文不让国内看,跟肖飞合作,清华本硕没有一作

耿同学的北航博导杨昀:论文不让国内看,跟肖飞合作,清华本硕没有一作

小小河
2026-05-29 22:41:27
2-1大冷门,世界第92掀翻世界第6,23岁法国新锐首进法网女单16强

2-1大冷门,世界第92掀翻世界第6,23岁法国新锐首进法网女单16强

侧身凌空斩
2026-05-30 23:06:11
京东上线家电家居“组合购”新功能,有网友晒账单“买了10万元东西,便宜了5.2万元”

京东上线家电家居“组合购”新功能,有网友晒账单“买了10万元东西,便宜了5.2万元”

台州交通广播
2026-05-30 22:37:43
“只要大陆敢打,我就敢送”,他公开宣称

“只要大陆敢打,我就敢送”,他公开宣称

安安说
2026-05-24 15:20:17
哈里梅根返英前爆发激烈争吵,公爵夫人怒斥“我不去”,苏塞克斯婚姻再陷危机

哈里梅根返英前爆发激烈争吵,公爵夫人怒斥“我不去”,苏塞克斯婚姻再陷危机

科学发掘
2026-05-30 16:40:44
不愧是山姆断货王!!真的好好吃

不愧是山姆断货王!!真的好好吃

广州生活美食圈
2026-05-28 20:53:06
359旅主任刘亚生被俘,胡宗南从军统调来女特务,下令今晚拿下他

359旅主任刘亚生被俘,胡宗南从军统调来女特务,下令今晚拿下他

磊子讲史
2026-05-29 14:42:20
每体:里克尔梅:若当选皇马主席,罗德里会来

每体:里克尔梅:若当选皇马主席,罗德里会来

懂球帝
2026-05-31 04:29:20
全民不接电话!中国要成首个抛弃电话的国家,真相太扎心

全民不接电话!中国要成首个抛弃电话的国家,真相太扎心

番外行
2026-05-25 15:19:56
日韩车衰败?实情是中国汽车先顶不住了,日韩车展开反攻

日韩车衰败?实情是中国汽车先顶不住了,日韩车展开反攻

柏铭锐谈
2026-05-30 10:13:02
两位当家球星罢赛!状元也开始甩卖,CBA总冠军球队真要解散?

两位当家球星罢赛!状元也开始甩卖,CBA总冠军球队真要解散?

国篮会自强
2026-05-30 11:27:52
NBA重拳打击摆烂!选秀抽签规则将迎重大改革

NBA重拳打击摆烂!选秀抽签规则将迎重大改革

晚风知我意21
2026-05-31 02:13:19
55 年梦碎!阿尔特塔致命昏招!亲手葬送阿森纳欧冠首冠

55 年梦碎!阿尔特塔致命昏招!亲手葬送阿森纳欧冠首冠

奶盖熊本熊
2026-05-31 03:59:47
反转!网传武汉一婚介所男性资料只剩20多份,女性激增到3500多份

反转!网传武汉一婚介所男性资料只剩20多份,女性激增到3500多份

老猫观点
2026-05-30 07:38:10
重庆一写字楼楼顶起火,烧得只剩一个框架!

重庆一写字楼楼顶起火,烧得只剩一个框架!

随州消防119
2026-05-30 08:04:31
正在悄悄消失的“酒局”

正在悄悄消失的“酒局”

职场资深秘书
2026-05-26 17:09:59
2026-05-31 05:00:49
蓝鲸新闻 incentive-icons
蓝鲸新闻
财经信息服务平台
133265文章数 193928关注度
往期回顾 全部

科技要闻

车圈大佬发声:价格战远去,但竞争仍残酷

头条要闻

两名9岁女孩被困电梯近2小时 求救几十次物业无动于衷

头条要闻

两名9岁女孩被困电梯近2小时 求救几十次物业无动于衷

体育要闻

巴黎再度捧起欧冠奖杯 枪手众将黯然神伤

娱乐要闻

张碧晨《歌手》 “活人微死” 自嘲

财经要闻

双汇管不住一头猪

汽车要闻

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

时尚
房产
艺术
家居
健康

美回巅峰的她们,带火的这些爆款真的好用吗

房产要闻

红动五月!全国抢入核心资产,广州盯紧凯旋新世界!

艺术要闻

非洲超级地标!全球最大足球场,持续推进!

家居要闻

云栖 舒展如流云

尝试干细胞疗法如何避免踩坑?

无障碍浏览 进入关怀版