网易首页 > 网易号 > 正文 申请入驻

Llama 4 刷榜作弊引热议,20 万显卡集群就做出了个这?

0
分享至

被 AI 快速重塑的时代,真实性与信任比排名更重要。

作者丨郑佳美

编辑丨马晓宁

昨天一早,Meta 放出了自家用了 20 万显卡集群训练出的 Llama 4 系列模型,其中包括 Llama 4 Scout、Llama 4 Maverick 和 Llama 4 Behemoth。消息一出,直接引爆了大模型圈。

Meta 还特意强调,这些模型都经过了大量未标注的文本、图像和视频数据的训练,视觉理解能力已经到了 Next level,有种在大模型领域一骑绝尘的既视感。

Meta GenAI 负责人 Ahmad Al-Dahle 也表示:“我们的开放系统将产出最好的小型、中型和即将出现的前沿大模型。”并附上了一张 Llama 4 的性能对比测试图。

紧接着,在大模型竞技场中 Llama 4 Maverick 的排名直接跃升到第二名,成为了第 4 个突破 1400 分的大模型。在开放模型排行榜上更是超越了 DeepSeek,直接上桌坐“主座”。

“首次采用 MoE 架构”、“千万 token 上下文”...一时间 Llama 4 就被贴满了各种 Title。

但在一片赞美和吹捧声中,很快就有心细的网友发现了不对劲。这位网友用头段时间在 上很火的让模型直出几何程序的方式来测试 Llama 4,但最终的结果是在画六角形内含一个受重力影响球的集合图像时,Llama 4 试了 8 次也错了 8 次,而反观 DeepSeek R1 和 Gemini 2.5 pro 则是一次正确。

也有网友表示对 Llama 4 的表现感到非常失望。按照以往惯例,更新了版本号的模型在性能上应该有很大的突破,而 Meta 憋了这么久才舍得放出来的 Llama 4 非但没有进步,在测试中的表现还不如一些现有的大模型。

还有网友非常贴心的给出 Llama 4 系列的模型能力找了个参照物:“Llama 4 maverick 这个 402B 的大模型,大概跟 Qwen QwQ 32B 写代码水平一致,而 Llama 4 scout 则近似于 Grok2 或者 文心 4.5。”

1

Llama 4:超级刷榜选手

在官方给出的数据中,Llama 4 的能力妥妥碾压了一众大模型,但在网友们的实际测试中,Llama 4 却显得很拉跨,越测越觉得离谱的网友们不由得怀疑,扎克伯格是不是给自家模型偷偷刷榜了?

经过网友们的多方证实,最后发现,嘿!还真是刷的。

其实如果认真看 Ahmad Al-Dahle 发布的 Llama 性能对比测试图最下面一行的小字,你就会发现上面写着“Llama 4 Maverick 针对对话进行了优化”,而 Meta 其实早就给自己留了个“图片仅供参考,一切以实物为准”的心眼。

除了破解 Meta 官方的字谜游戏外,网友们也带着 Llama 4 进出于各大测试榜单中。

他们先是把 Llama 4 拉到了著名的 code 测试榜单 Aider ployglot 中,最终的得分比 qwen-32B还低。

在另一个代码评测榜单中,Llama 4 的成绩也只能排在中间位置。

除此之外,网友们发现在 EQBench 测评基准的长文章写作榜上,Llama 4 系列也是直接垫底。

而即使是最基础的翻译任务,网友们也表示 Llama 4 的表现也是比 3.3 的 70b 还要差得多,甚至还不如 Gemma 3 的 27B。

2

混乱的 Meta

正在网友们风风火火测评 Llama 4 的真实成绩时,一则发布在海外的求职平台一亩三分地上的内容更是直接给Llama 4 的作弊传闻添了一把柴。

文中提到 Llama 4 的训练存在严重问题,并且内部模型的表现仍然未能达到开源 SOTA,甚至与之相差甚远,而 Llama 4 的高分也确实是领导层为了能够在各项指标上交差所做出的“努力”。而这个则消息的爆料者,很可能来自 Meta 公司内部。

除此之外也有其他的 AI 从业者在线吐槽,表示“我们都被耍了,Llama 4 不过是一个早早被设计好的实验版本。”

还有前 Meta 员工站出来指出公司在产品研发方面存在巨大漏洞,并表示 Llama 系列模型的信息泄露问题其实从 Llama 1 就已经存在了。

而在 Llama 4 发布的几天前,Meta AI 研究副总裁 Joelle Pineau 就在 Linkedin 发文称自己已经申请将在 5 月份离职,不由得让人们将这件事与 Llama 4 作弊刷榜的事情联系到一起。

不少人疑惑,为什么一向崇尚“大力出奇迹”的 Meta 这次的翻车力度这么大,明明有钱、有卡、有数据,但模型创新能力依旧不足,还要靠作弊刷榜来找存在感?

一个坊间流传的观点是,Meta内部研究人员压力过大,因为他们需要做出成果,给公司一个好的交代,因此会求稳,更加偏向于更能做出成果的事情,而真正重要的内容,比如基础设施的迭代、新算法的实验,这些需要大量时间去做出成果的内容,却往往没有人愿意去做。

这也导致了 Meta 很难在大模型市场上继续做出向 DeepSeek R1 这样轰动整个 AI 领域的东西,而还没有发布的超大杯 2T 参数模型也应证着这个观点:Meta 其实还没有更好的想法。

反观以研究为导向的 DeepSeek,其实一直在探索新的架构。DeepSeek 团队先是提出了强化学习里的神奇算法 GRPO,紧接着在 DeepSeek v2 时提出的 MLA 原理直接沿用到了 DeepSeek V3 和 DeepSeek R1 版本上,后来发布的全新注意力架构 NSA 更是实现了超高速长上下文训练与推理。

回到 Llama 4 这边,根据 AI 科技评论的了解,对大模型架构有研究的专业人士认为,Llama 4 非常缺乏技术创新,比如说,在后训练阶段还在死守 DPO 。而此前的一系列理论和实验都表明 DPO 的泛化能力,“比 PPO 差得远”。PPO 在实际使用中需要调的细节很多,不易上手。在 DeepSeek 提出 GRPO 以后,越来越多的研究者开始使用 GRPO 及其改版。 Meta 还继续坚持用着 DPO 而不选择创新,这么来看Llama 4 做成如此也属于意料之中

3

常人没法用,专家用不着

而最让人失望的是,Llama 4 系列的模型都无法放入家用电脑,并且 Llama 4 除了一直在宣传的 10M 上下窗口外,貌似已经没有任何优势,而这一点对于大多数人来说其实并不是必需的内容。

除此之外,GPT 4o, Gemini 2.5 Pro 这些拥有生图能力的模型型号已经正式推出,而 Grok3、Gemini 2 Flash 等多模态模型也已经开始广泛开放,这也意味着更多的人没有再用 Llama 4 的理由,或者说,Llama 4 本身没有太强的市场竞争力。

反观这次 Llama 4 的翻车事件,不难看出其实 Llama 4 系列模型很可能是 Meta 在追赶大模型潮流的战略布局中的一枚重要棋子,但却因为太过于“急功近利”而选择作弊,导致直接失去了社区的支持,进而失去了自身的竞争优势。

并且 Llama 2、Llama 3 的时代已经过去,选择 Llama 作为基座的开源模型只会越来越少,而对于 Meta 来说,与其选择作弊刷榜博眼球,不如想想如何创新,如何提高社区适用度,能不能追上最前端的技术暂且放一边,最重要的是先把口碑先赚回来。

更多内容,点击下方关注:

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

英伟达团队发布最新具身模型 Cosmos-Reason1,在物理世界推理中碾压 Qwen、GPT-4o 等多个 VLM 模型

AI Agent 发展史:从 RL 驱动到大模型驱动 |AIR 2025

UCL强化学习派:汪军与他的学生们

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“感谢救我一命”32岁博主嘴唇发紫被粉丝催检查,背上动态检测仪心脏停搏2次,最长3.1秒,医生:很危险,停搏不启动就叫猝死

“感谢救我一命”32岁博主嘴唇发紫被粉丝催检查,背上动态检测仪心脏停搏2次,最长3.1秒,医生:很危险,停搏不启动就叫猝死

大象新闻
2026-04-03 00:45:09
三大指数全部翻绿 下跌个股近4600只

三大指数全部翻绿 下跌个股近4600只

财联社
2026-04-03 10:09:05
他卖了40%的“澳洲优思益”,共计10万单,凭什么央视要对他追责?别呀,他还只是个孩子。

他卖了40%的“澳洲优思益”,共计10万单,凭什么央视要对他追责?别呀,他还只是个孩子。

问道求真
2026-04-02 08:03:53
“霍尔木兹决战”,让特种部队来打?

“霍尔木兹决战”,让特种部队来打?

中国新闻周刊
2026-04-02 19:57:03
东亚正掉入“人口消亡赛”,问题不只是养不起孩子,社会契约已出现裂缝

东亚正掉入“人口消亡赛”,问题不只是养不起孩子,社会契约已出现裂缝

风向观察
2026-04-03 08:45:52
对伊一仗打出3个“失败”,美国耗不起了,特朗普要22国承担成本

对伊一仗打出3个“失败”,美国耗不起了,特朗普要22国承担成本

知法而形
2026-04-02 18:33:19
郑丽文上海中转南京谒陵,高铁上那60分钟藏着什么话没说。

郑丽文上海中转南京谒陵,高铁上那60分钟藏着什么话没说。

阿莱美食汇
2026-04-03 08:58:49
他把冠军车定价4万,进口品牌集体失眠了

他把冠军车定价4万,进口品牌集体失眠了

固件更新中
2026-04-02 14:48:45
美军伤亡最新数据曝光!美防长:陆军参谋长立即辞职

美军伤亡最新数据曝光!美防长:陆军参谋长立即辞职

大国之翼
2026-04-03 06:38:48
哀悼,阿里巴巴一员工突发心源性休克抢救无效去世

哀悼,阿里巴巴一员工突发心源性休克抢救无效去世

记录刘杰
2026-04-03 07:21:57
伊朗军事反击能维持多久?

伊朗军事反击能维持多久?

参考消息
2026-04-02 20:40:30
战争之殇:交通高峰期,中东最高桥梁被美以联军炸毁!

战争之殇:交通高峰期,中东最高桥梁被美以联军炸毁!

胜研集
2026-04-02 21:40:20
张雪硬刚陈光标:拿你送的豪车卖钱做慈善,豪车不过户直接竖中指

张雪硬刚陈光标:拿你送的豪车卖钱做慈善,豪车不过户直接竖中指

行者聊官
2026-04-02 17:02:08
这是巩俐年轻时的剧照,张艺谋导演,特别真实的,很贴近生活。

这是巩俐年轻时的剧照,张艺谋导演,特别真实的,很贴近生活。

手工制作阿歼
2026-04-03 01:59:04
加餐换自动铅笔后续:宝妈强势追责,同学赔偿道歉,方式太窒息了

加餐换自动铅笔后续:宝妈强势追责,同学赔偿道歉,方式太窒息了

阿纂看事
2026-04-02 13:47:58
体验为王 看美团服务零售如何激活家电线下新增长?

体验为王 看美团服务零售如何激活家电线下新增长?

中国家电网
2026-04-03 08:50:50
这个新瓜,把人恶心吐了!

这个新瓜,把人恶心吐了!

八卦南风
2026-04-01 15:48:25
继德国之后,英国也开始贴出“中文标语”?中国游客:不能够接受

继德国之后,英国也开始贴出“中文标语”?中国游客:不能够接受

潮鹿逐梦
2026-04-02 12:31:48
《战旗如画》被观众要求下架!理由:剧情离谱、主演降智

《战旗如画》被观众要求下架!理由:剧情离谱、主演降智

不似少年游
2026-04-02 19:48:54
人民日报探访江苏、山东、河南、陕西等地:纠治乱作为,这样靶向施策

人民日报探访江苏、山东、河南、陕西等地:纠治乱作为,这样靶向施策

上观新闻
2026-04-03 07:20:03
2026-04-03 11:19:00
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7167文章数 20742关注度
往期回顾 全部

数码要闻

玩家国度二十年纪念?华硕注册ROG CROSSHAIR X870E EDITION 20

头条要闻

郑丽文顶住压力毅然访陆 洪秀柱表态发文力挺

头条要闻

郑丽文顶住压力毅然访陆 洪秀柱表态发文力挺

体育要闻

冲击世界杯失败,80岁老帅一气之下病倒了

娱乐要闻

田亮一家新年全家福!森碟变清纯少女

财经要闻

全球石油危机或将蔓延

科技要闻

SpaceX冲刺2万亿美元估值,马斯克野心太大

汽车要闻

大众严选 何惧"定终身"

态度原创

教育
本地
数码
房产
军事航空

教育要闻

#小学初中严禁设重点班实验班 【教育部:#全面推进义务教育均衡编班 】今天,教育部发布通知,启动实施...

本地新闻

从学徒到世界冠军,为什么说张雪的底气在重庆?

数码要闻

部分三星Bespoke洗烘一体机出现故障,海外用户更新后无法洗衣服

房产要闻

理科生的浪漫,都藏在细节里!中交·蓝色港湾这场交付太硬核!

军事要闻

伊朗自杀无人机突进 逼退林肯号航母

无障碍浏览 进入关怀版