网易首页 > 网易号 > 正文 申请入驻

国产大模型竞技场首超GPT-4o!零一万物GLM共同跻身Top10

0
分享至

西风 发自 凹非寺
量子位 | 公众号 QbitAI

国产大模型首次在公开榜单上超过GPT-4o!

就在刚刚,“大模型六小强”之一的零一万物正式对外发布新旗舰模型——Yi-Lightning(闪电)。

在大模型竞技场(Chatbot Arena)上,Yi-Lightning性能直冲总榜单并列第6,数学分榜并列第3,代码等其它分榜也名列前茅。

总成绩几乎与马斯克最新xAI大模型Grok-2-08-13持平,超越GPT-4o-2024-05-13、GPT-4o-mini-2024-07-18、Claude 3.5 Sonnet等顶流。

同时,国内清华系大模型公司智谱AI的GLM-4-Plus也杀进了总榜,位居第9位。

该榜单结果来自全球累积超千万次的人类用户盲测投票。

前段时间大模型竞技场还刚刚更新了规则,新榜单对AI回答的长度和风格等特征做了降权处理,分数更能反映模型真正解决问题的能力。

这次Yi-Lightning杀出重围,Lmsys团队特意发帖子,称这是竞技场上的大新闻:

大模型竞技场总榜第六、国产第一

细看大模型竞技场分类榜上的“赛况”,Yi-Lightning各项能力都排在前头。

中文能力上,Yi-Lightning和GLM-4-Plus两个国产大模型都名列前位。

Yi-Lightning跃居并列第二,和o1-mini相差无几。

数学能力,Yi-Lightning和Gemini-1.5-Pro-002并列第3,仅次于o1-preview、o1-mini。

代码能力Yi-Lightning排名并列第4。

另外在Hard PromptsLonger Query分榜,Yi-Lightning也都排在第4位。

最后同样值得关注的是,竞技场新功能风格控制过滤,确保分数反映模型真正解决问题的能力,而不是用漂亮的格式、增加回答长度。

在对长度和风格等特征做了降权处理后,所有模型分数均有下降,Yi-Lightning排名变化不大,整体还与GPT-4o、Grok-2同一梯队。

发布会上,零一万物创始人兼CEO李开复博士展示了Yi-Lightning在不同场景上的能力。

Yi-Lightning主打一个“推理速度更快,生成质量更好”。

相比上半年Yi-Large,Yi-Lightning首包速度提升1倍,推理速度也提升了4成。

像是翻译下面这种文学作品,Yi-Lightning不仅速度更快:

而且用词更精准,更具文学色彩:

那么Yi-Lightning是如何做到的?

好用还得极速

Yi-Lightning采用MoE混合专家模型架构。

底层技术上,Yi-Lightning在以下方面进行了提升。

首先是优化混合注意力机制(Hybrid Attention),只在模型的部分层次中将传统的全注意力(Full Attention)替换为滑动窗口注意力(Sliding Window Attention)。

由此以来,模型在保证处理长序列数据高性能表现的同时,还能大大降低推理成本。

Yi-Lightning还引入了跨层注意力(Cross-Layer Attention, CLA),允许模型在不同的层次之间共享键(Key)和值(Value)头,减少对存储需求。

这使得Yi-Lightning能在不同层次之间更有效地共享信息。

总的来说,KV cache缩小了2-4倍,同时将计算的复杂度从O(L²)降至O(L)。

其次,Yi-Lightning还采用了动态Top-P路由机制

也就是说,Yi-Lightning可以根据任务的难度动态自动选择最合适的专家网络组合——

训练过程中会激活所有专家网络,使模型能学习到所有专家知识;而推理阶段,根据任务的难度,模型会选择性激活更匹配的专家网络。

另外,之前有一些传言称国内大模型“六小强”,有一些已经不做预训练了,李开复博士这次在发布会上直接“辟谣”:

零一万物绝不放弃预训练。

而且在模型预训练阶段,团队还积累了丰富的多阶段训练方法,将整个训练分为两块,一块做好以后就把它固定起来,然后在这个固定的模型上再做后段训练。

训练前期,更注重数据多样性,使得Yi-Lightning尽可能学习不同的知识;训练后期更重内容更丰富、知识性更强的数据。

同时团队还在不同阶段采用不同的batch size和LR schedule保证训练速度和稳定性。

李开复博士还表示,零一万物开发模型讲究“模基共建”,也就是共建模型和基础架构

模型的训练、服务、推理设计,与底层的AIInfra架构和模型结构必须高度适配。

这样做的目的,不仅是让模型更好,而且让它在推理的时候能够更便宜。

再加上以上种种抬升“性价比”的技术加持,所以Yi-Lightning这次也是打到了白菜价——

0.99元每1M token

在中文等方面,Yi-Lightning比肩OpenAI的o1-mini,o1-mini的定价是每百万输入3美元,每百万输出12美元。

Yi-Lightning每百万token只需0.99RMB也是打到了骨折。

但李开复博士表示,即便这样也:不亏钱。

除了发布新模型,零一万物这次还首发了AI2.0数字人方案。

目前该数字人已接入Yi-Lightning,实时互动效果相比以往更强更自然了,belike:

https://www.toutiao.com/article/7426244808324284968/

最后谈起和国外头部大模型的差距,李开复博士表示这次Yi-Lightning的排名证明了国产大模型跟硅谷最顶尖模型的差距缩小到了五个月。

去跟追上美国最顶尖的模型,缩短这个时间差非常困难,要付出很大的努力和有独特的打法。在国内不少公司都在努力,“模基共建”则是零一万物自己摸索的独特路径。

参考链接:
[1]https://x.com/lmarena_ai/status/1846245604890116457
[2]https://x.com/01AI_Yi/status/1845776529185476613

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
4大顶尖模型被扔进虚拟小镇求生!GPT全员饿死,Grok四天灭世

4大顶尖模型被扔进虚拟小镇求生!GPT全员饿死,Grok四天灭世

新智元
2026-05-29 15:44:12
中超再现奇葩1幕:外援脱衣庆祝被罚下,裁判看到都笑出来!

中超再现奇葩1幕:外援脱衣庆祝被罚下,裁判看到都笑出来!

邱泽云
2026-05-29 23:39:09
越来越多的县城,只剩下体制内经济了!

越来越多的县城,只剩下体制内经济了!

黯泉
2026-05-13 11:15:55
瑞舒伐他汀立大功!研究发现:老人吃瑞舒伐,可改善4大血管问题

瑞舒伐他汀立大功!研究发现:老人吃瑞舒伐,可改善4大血管问题

垚垚分享健康
2026-05-28 08:52:25
女宇航员在太空,怎么解决生理需求?怎么保护隐私?了解下

女宇航员在太空,怎么解决生理需求?怎么保护隐私?了解下

小谈食刻美食
2026-05-12 07:59:18
我哥不抽烟不喝酒,坚持跑步三十年,五十八岁却查出癌症……

我哥不抽烟不喝酒,坚持跑步三十年,五十八岁却查出癌症……

坠入二次元的海洋
2026-05-30 09:11:05
正当防卫被判死刑,枪决前6分钟被最高法紧急叫停,董伟案始末

正当防卫被判死刑,枪决前6分钟被最高法紧急叫停,董伟案始末

易玄
2026-05-25 01:45:09
马竞怒了!“官宣”签下亚马尔等3巨星回击巴萨:想挖小蜘蛛掏5亿

马竞怒了!“官宣”签下亚马尔等3巨星回击巴萨:想挖小蜘蛛掏5亿

我爱英超
2026-05-30 06:18:44
拦截强度远超想象,官方公布驱离荷兰军舰视频,战机带PL升空

拦截强度远超想象,官方公布驱离荷兰军舰视频,战机带PL升空

三叔的装备空间
2026-05-28 23:37:08
梅根和哈里大吵一架!刚过完8周年纪念日,关系就迅速降到冰点

梅根和哈里大吵一架!刚过完8周年纪念日,关系就迅速降到冰点

红袖说事
2026-05-30 12:24:49
当了酒店前台才知道的秘密!瓜太多了,吃不过来了!

当了酒店前台才知道的秘密!瓜太多了,吃不过来了!

夜深爱杂谈
2026-05-27 07:50:31
一盘木耳毒死7人?医生警告:木耳尽量别这样吃,比砒霜还毒

一盘木耳毒死7人?医生警告:木耳尽量别这样吃,比砒霜还毒

医学科普汇
2026-05-27 16:52:29
每体:阿尔维斯称有主相伴,狱中113欧胜过数百万

每体:阿尔维斯称有主相伴,狱中113欧胜过数百万

懂球帝
2026-05-30 07:25:07
中方有三艘护卫舰,围堵荷兰一艘护卫舰,歼16战机带实弹参与驱离

中方有三艘护卫舰,围堵荷兰一艘护卫舰,歼16战机带实弹参与驱离

国平视野
2026-05-29 15:54:56
有没有人敢爆自己的瓜?网友:确定玩这么大吗?

有没有人敢爆自己的瓜?网友:确定玩这么大吗?

夜深爱杂谈
2026-02-18 20:55:58
外交部郑重声明

外交部郑重声明

证券时报
2026-05-29 20:36:06
孙俪万万没想到!14岁儿子爆火:化个妆就能演少年甄嬛

孙俪万万没想到!14岁儿子爆火:化个妆就能演少年甄嬛

阿废冷眼观察所
2026-05-28 05:35:27
演员窦骁自曝家世:爷爷是文工团长,母亲曾是校花

演员窦骁自曝家世:爷爷是文工团长,母亲曾是校花

喜欢历史的阿繁
2026-05-30 09:13:09
黄智贤灵魂拷问萧旭岑:你到底有没有把马英九当人看?

黄智贤灵魂拷问萧旭岑:你到底有没有把马英九当人看?

坠入二次元的海洋
2026-05-30 09:16:16
突发!世界乒联发文道歉,WTT赛取消原因曝光,亏损没有钱举办,索林很无奈

突发!世界乒联发文道歉,WTT赛取消原因曝光,亏损没有钱举办,索林很无奈

最爱乒乓球
2026-05-30 05:04:56
2026-05-30 13:56:49
量子位 incentive-icons
量子位
追踪人工智能动态
12708文章数 176472关注度
往期回顾 全部

科技要闻

车圈大佬发声:价格战远去,但竞争仍残酷

头条要闻

车手张秀军意外离世 家属:3个年幼孩子尚不知父亲遇难

头条要闻

车手张秀军意外离世 家属:3个年幼孩子尚不知父亲遇难

体育要闻

岁月不饶人!39岁德约鏖战近5小时拼到呕吐

娱乐要闻

向太曝黄晓明曾当众给她下跪

财经要闻

双汇管不住一头猪

汽车要闻

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

本地
数码
旅游
艺术
公开课

本地新闻

用剪纸的方式,打开江苏扬州

数码要闻

618装机必看:七彩虹5款神卡 从入门到旗舰一步到位

旅游要闻

东北超有戏 江湖遇草原 鸡西文旅通辽快闪燃情出圈

艺术要闻

王文生 2026风景写生新作

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版