网易首页 > 网易号 > 正文 申请入驻

Llama 4被质疑“作弊”!在竞技场刷高分,实战频频“翻车”,Meta AI副总裁紧急辟谣,图灵奖大佬“站台”

0
分享至

每经记者:宋欣悦 每经编辑:兰素英

当地时间4月5日,美国科技巨头Meta宣布推出其新一代开源大模型Llama 4。Llama 4目前有两个混合专家(MoE)架构的版本,分别为Scout和Maverick。更为强大的Llama 4 Behemoth仍在训练中。

Meta官方称,Llama 4在一系列广泛接受的基准测试中均实现了领先同行的水平,尤其是Llama 4 Behemoth,在多个基准测试中的表现要优于GPT-4.5、Claude Sonnet 3.7和Gemini 2.0 Pro等一众行业顶尖封闭模型。

然而,就在模型发布后不久,铺天盖地的质疑声涌来。开发者实测Llama 4后发现,其真实效果并不如宣传中那么惊艳,甚至问题百出。

与此同时,有开发者质疑Meta作弊“刷榜”,根据相关评测基准对模型进行“量身定制”训练。

知名科技媒体TechCrunch也发文,直指Meta新AI模型的性能测试“具有一定误导性”。

Meta深陷舆论漩涡之中。对于外界的质疑,当地时间4月7日,Meta生成式AI副总裁艾哈迈德·阿尔·达赫勒(Ahmad Al-Dahle)在社交平台X上公开回应,明确指出相关说法毫无事实依据。

图片来源:Meta官网


Meta“刷榜”?开发者实测Llama 4:编程等任务表现不佳,“远排不上第一或第二”

据Meta介绍,Llama 4模型家族使用了混合专家(MoE)架构,原生支持多模态,实力超强,堪称“全能选手”。

其中,Llama 4 Scout拥有170亿活跃参数以及16个专家模块,提供长达1000万tokens上下文窗口。在多项基准测试中,Scout的表现优于Gemma 3和Gemini 2.0 Flash-Lite等模型。

Llama 4 Maverick同样拥有170亿活跃参数,专家模块数量提升至128个。在多项主流基准测试中,其成绩超越了GPT-4o和Gemini 2.0 Flash。Meta还特意点名DeepSeek,强调在推理和编码方面,Llama 4 Maverick可以比肩DeepSeek新开源的V3模型,而其活跃参数还不到DeepSeek新版V3的一半

被Meta称为“世界上最聪明的模型之一”的Llama 4 Behemoth则拥有2880亿活跃参数和16个专家模块。在多项主流基准测试中,其性能表优于GPT-4.5、Claude Sonnet 3.7和Gemini 2.0 Pro等行业顶尖模型。

图片来源:Meta官网

而在大模型竞技场上,Llama 4 Maverick表现夺目,总排名位居第二,成为第四个突破1400分的大模型。在开源模型中,Llama 4 Maverick排名第一,超越了DeepSeek

在困难提示词、编程、数学、创意写作等任务的比拼中,Llama 4 Maverick均斩获第一名。相较于自家前代产品Llama 3(405B)获得的1268分,Llama 4 Maverick的得分实现大幅跃升,达到了1417分。

图片来源:大模型竞技场

这本应是开源社区的又一狂欢。但开发者们实测发现,Llama 4的效果并不像官方宣称的那样惊艳,甚至可以说是问题百出

Menlo Ventures风险投资人迪迪·达斯(Deedy Das)直言,“Llama 4实际上是一个糟糕的编程模型。”

达斯指出,在专注于编程任务(如代码生成和代码补全)的KCORES基准测试中,Llama 4 Scout和Llama 4 Maverick表现欠佳,落后于GPT-4o、Grok 3、DeepSeek-V3等模型。

图片来源:KCORES LLM Arena

这与此前Llama 4在大模型竞技场的表现形成鲜明反差。

有网友直接曝出,Llama 4在大模型竞技场上存在过拟合现象,有极大的作弊“刷榜”嫌疑

在一些实测中,Llama 4在上下文任务的实际表现远低于预期。Llama 4 Maverick在aider多语言编码基准测试中的实测得分仅为16%。

Abacus.AI首席执行官宾杜・雷迪(Bindu Reddy)评论道:“人类的评估已经毫无意义了……根据现实世界的表现,Llama 4 Maverick应该远远排不上第一或第二。”

大模型竞技场官方也下场“补刀”,指出Meta在大模型竞技场使用的并非HuggingFace上供开发者使用的Llama 4版本,而是“针对人类偏好进行优化的定制模型Llama-4-Maverick-03-26-Experimental”。

大模型竞技场官方要求Meta对此事作出澄清,并强调其排行榜结果准确可靠,后续将对Llama 4重新进行评测。

图片来源:X

知名科技媒体TechCrunch也发文,标题直言Meta新AI模型的性能测试“具有一定误导性”

文章指出,针对基准测试优化特定版本去打榜,却给开发者提供“基础版”的做法,让开发者难以依据榜单排名准确预估模型在实际应用场景中的真实表现。

《每日经济新闻》记者发现,在Llama官网提供的性能对比测试图的最下面,写着其在大模型竞技场上使用的是专门针对对话场景优化的Llama 4 Maverick版本。不过,这一信息的字体极小,很难被注意到

图片来源:X


Llama 4训练作弊?Meta紧急辟谣,大佬杨立昆也“站台”

就在Llama 4被集体质疑之时,内部员工的一则爆料帖子,让Meta陷入了更深的舆论漩涡之中。

4月7日,在海外留学求职交流论坛“一亩三分地”上,一位自称参与了Llama 4训练的内部员工爆料称,Llama 4模型训练测试集作弊,并表示自己已因此辞职。

图片来源:一亩三分地

该员工透露,尽管团队反复努力训练,Llama 4的内部模型性能始终无法达到开源SOTA(State-of-the-Art,顶尖水平)基准,且差距明显。为达成目标,公司领导层提出在训练后期将各种基准测试的测试集数据混入训练或微调数据中,以此在各项指标上达成目标,交出一份“好看”的成绩单。

这位内部员工表示,自己无法接受公司这种做法,甚至辞职信中明确要求不要在Llama 4技术报告中挂名。

就在Llama 4发布前几天,Meta AI研究主管乔尔·皮诺(Joelle Pineau)在工作8年之后突然宣布离职。

不过,由于发帖人并未实名,该帖子的真实性暂无法核实。在帖子下方评论区,已有数名Meta员工实名进行辟谣。

Meta研究科学家主管Licheng Yu称,团队绝不存在针对测试集过拟合训练的情况。

图片来源:一亩三分地

另一位Meta高级AI研究科学家Di Jin也反驳道:“我参与了微调和强化学习的数据混合工作,并没有这种(将基准测试的测试集数据混入训练或微调数据)情况。”

并且,Di Jin还指出,近期离职的AI研究主管乔尔・皮诺,实则并非Meta GenAI团队成员,没有参与GenAI的任何模型训练工作。

图片来源:一亩三分地

根据Meta的组织架构体系,乔尔・皮诺是FAIR的副总裁,而FAIR实际上是Meta内部与GenAI完全独立的组织,GenAI才是负责Llama项目的组织。

针对外界对Llama 4模型的诸多质疑,当地时间4月7日,Meta生成式AI副总裁艾哈迈德·阿尔·达赫勒(Ahmad Al-Dahle)在社交平台X上公开回应,明确指出相关说法毫无事实依据。

同时,达赫勒指出,部分用户通过不同云服务商使用Llama 4模型时,遭遇了质量不稳定问题。他对此解释道:“由于我们在模型准备好后就迅速发布,因此预计需要几天的时间来调整所有公开版本。后续,Meta将持续进行错误修复工作,并与合作伙伴保持沟通。”

图片来源:X

此外,Meta首席AI科学家、图灵奖得主Yann LeCun也转发了该帖子,为Llama 4声援“站台”。

图片来源:X

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“以为眼花了”,山东气温将飙到17℃!天气上演超级过山车:下一波雨雪在路上;烟威的雪为何下到“冒烟”?

“以为眼花了”,山东气温将飙到17℃!天气上演超级过山车:下一波雨雪在路上;烟威的雪为何下到“冒烟”?

鲁中晨报
2026-01-12 18:49:10
奥运两负陈梦、全运两负王曼昱,留给孙颖莎的大赛时间不多了

奥运两负陈梦、全运两负王曼昱,留给孙颖莎的大赛时间不多了

十点街球体育
2025-11-18 06:00:03
香港知名男星《寻秦记》拍三个月打戏被全删,自嘲“样子不连戏”

香港知名男星《寻秦记》拍三个月打戏被全删,自嘲“样子不连戏”

科学发掘
2026-01-11 14:20:46
心脏装了6个支架的王石日本看病实录,值得深思

心脏装了6个支架的王石日本看病实录,值得深思

深度报
2026-01-01 23:17:29
连爆大冷2-6!塞尔比+墨菲一轮游,五虎淘汰三虎,4强中国锁定1席

连爆大冷2-6!塞尔比+墨菲一轮游,五虎淘汰三虎,4强中国锁定1席

球场没跑道
2026-01-12 06:51:15
35+34!曝即将加盟勇士!你好,总冠军前锋!

35+34!曝即将加盟勇士!你好,总冠军前锋!

篮球实战宝典
2026-01-12 21:20:46
公积金深改释放重磅信号!提取方式错了,5年资产差出一辆车

公积金深改释放重磅信号!提取方式错了,5年资产差出一辆车

流苏晚晴
2026-01-12 18:38:04
毛晓彤足弓暴击!这线条太致命,是腿精本精没错了?

毛晓彤足弓暴击!这线条太致命,是腿精本精没错了?

娱乐领航家
2026-01-06 21:00:03
雅万高铁通车两年,印尼没钱运营了,问中国:那45亿贷款能否缓缓

雅万高铁通车两年,印尼没钱运营了,问中国:那45亿贷款能否缓缓

芳芳历史烩
2026-01-08 15:40:33
退役又复出!巴萨35岁门神夺4冠,5次赢皇马,特狮近乎无缘美加墨

退役又复出!巴萨35岁门神夺4冠,5次赢皇马,特狮近乎无缘美加墨

球场没跑道
2026-01-12 13:50:42
叶剑英询问许世友:南京军区还听你调遣吗?许世友直言:军区司令就是我的贴身保镖

叶剑英询问许世友:南京军区还听你调遣吗?许世友直言:军区司令就是我的贴身保镖

清风鉴史
2025-12-24 15:02:13
中央戏剧学院通报!闫学晶之子入学风波:真相与争议的交织。

中央戏剧学院通报!闫学晶之子入学风波:真相与争议的交织。

蝴蝶花雨话教育
2026-01-12 09:21:43
开盘跌停!“超级大牛股”紧急澄清

开盘跌停!“超级大牛股”紧急澄清

鲁中晨报
2026-01-12 16:13:06
2026年U23亚洲杯小组赛第二轮全部结束!中日韩三家境遇各不同

2026年U23亚洲杯小组赛第二轮全部结束!中日韩三家境遇各不同

画夕
2026-01-12 15:02:26
浙江杭千高速公路收费员去年垫付通行费超10万元

浙江杭千高速公路收费员去年垫付通行费超10万元

金台资讯
2026-01-12 06:38:15
伊朗里亚尔已经严重贬值,伊朗正处于一场可能改变世界的边缘

伊朗里亚尔已经严重贬值,伊朗正处于一场可能改变世界的边缘

山河路口
2026-01-12 21:23:51
合川千人杀猪饭再爆猛料:五头猪换女子涨粉24万 呆呆能挣200万

合川千人杀猪饭再爆猛料:五头猪换女子涨粉24万 呆呆能挣200万

刘哥谈体育
2026-01-12 14:46:05
“河北取暖”被删除,我想问问……

“河北取暖”被删除,我想问问……

红色少女主播
2026-01-12 10:35:55
两件事可以预见中美之间的交易已经开始了。

两件事可以预见中美之间的交易已经开始了。

娱乐圈的笔娱君
2026-01-11 17:33:47
曝许家印香港大宅挖出460平地牢,潜伏15年才被发现,是为藏啥?

曝许家印香港大宅挖出460平地牢,潜伏15年才被发现,是为藏啥?

小熊侃史
2026-01-05 10:43:25
2026-01-13 00:44:49
每日经济新闻 incentive-icons
每日经济新闻
中国主流财经全媒体平台。
1454804文章数 2721647关注度
往期回顾 全部

科技要闻

面对SpaceX疯狂“下饺子” 中国正面接招

头条要闻

日媒:高市连续两日闭门不出 不回应媒体采访请求

头条要闻

日媒:高市连续两日闭门不出 不回应媒体采访请求

体育要闻

一场安东尼奥式胜利,给中国足球带来惊喜

娱乐要闻

蔡少芬结婚18周年,与张晋过二人世界

财经要闻

倍轻松信披迷雾 实控人占用资金金额存疑

汽车要闻

增配不加价 北京现代 第五代 胜达2026款上市

态度原创

时尚
旅游
本地
教育
军事航空

看了日本主妇的搭配才明白,年纪大了这么穿,优雅又不油腻

旅游要闻

“在德昌康养”成为向往 四川德昌以海花沟“热”带动乡村振兴

本地新闻

云游内蒙|“包”你再来?一座在硬核里酿出诗意的城

教育要闻

劝退:英国挨骂率最高的专业!

军事要闻

官方确认:歼10CE在空战中击落多架战机

无障碍浏览 进入关怀版