网易首页 > 网易号 > 正文 申请入驻

高中生用「我的世界」评测SOTA模型!Claude暂时领先,DeepSeek紧随其后

0
分享至


新智元报道

编辑:定慧

【新智元导读】AI频频刷新基准测试纪录,却算不清「strawberry」里到底有几个字母r,在人类看来很简单的问题却频频出错。这种反差促使创意测评兴起,例如由一名高中生开发的MC-Bench,用Minecraft方块「竞技场」模式评价AI能力。这种新的测评范式,或许更贴合人类对AI直观、创造性能力的实际期待。

「strawberry中有多少个r」和「在LSAT法学考试中获得88分」哪个更难?

对于现如今的LMMs来说,通过各种人类「听着就头痛,看又看不懂」的基准测试似乎已是家常便饭。

比如DeepSeek-R1发布时在6大基准测试(包含AIME、MMLU、MATH-500等)中超过o1取得领先。


但是对于人类来说依靠直觉和下意识就能回答的问题,LLM们似乎集体有点「发懵」。

很难理解OpenAI的GPT-4能够在LSAT考试中获得第88百分位的成绩,但却无法数清楚「strawberry」中有多少r。

除了复杂的基准测试,另外一种评价模型好坏的方式就是「竞技场模式」。

比如可以在Chatbot Arena进行上提问投票,选出面对相同问题时的「最佳模型」。


但是这种依靠Chat模式的评测依然不太直观,于是各种各样的创意评测就诞生了。

创意评测的魅力


Minecraft Benchmark(或 MC-Bench)像一个竞技场,在一对一的挑战中针对相同提示生成Minecraft作品。

「对决双方」由用户投票选择哪个模型做得更好。

并且只有在投票后才能看到每个Minecraft建筑是由哪个AI制作的。

目前MC-Bench的榜单上,Claude3.7暂时领先,deepseek-r1位列第5,但是考虑到DeepSeek-R1的发布时间,Claude3.7、GPT-4.5和Gemini2.0都相当于是「新一代」的模型了,期待DeepSeek-R2出来后的榜单!


像MC-Bench这样的创意评测,优势非常明显:普通人也能轻松参与,像「选美」一样简单直接。

创造MC-Bench项目的仅仅是一名高中生Adi Singh,在将Minecraft用于AI评测这件事情上,Adi Singh觉得Minecraft的价值不在游戏本身。

而是作为有史以来最畅销的电子游戏,即使对于没玩过Minecraft游戏的人来说,仍然可以选择自己更喜欢的「方块样子」。

MC-Bench是合作开发的,除了Adi Singh外,贡献者还有7位,包括了「提示词创意官」、技术主管和开发者们。


并获得了Anthropic、Google和阿里巴巴等公司的技术支持。


传统LLM评测:严肃认真但未必管用

传统的AI基准测试技术被证明不足,主要体现在以下几个方面:

  • 主场优势 (Overfitting to benchmarks):传统的 AI 基准测试往往基于特定类型的任务设计,这些任务对 AI 模型来说相对固定且简单,这种过拟合就像一名「只会背题」的学生。

  • 测试任务过于狭窄:传统的测试任务多集中于单一维度的能力评估,如语言理解、逻辑推理、数学计算。

  • 缺乏真实环境与开放性:传统的基准测试通常使用高度抽象化或理论化的环境,而这些环境往往不能反映现实世界中问题的开放性和不确定性。

  • 难以衡量通用性与泛化能力:传统 AI 基准测试往往无法有效衡量模型的通用性或泛化能力。

因此AI构建者正在转向更有创意的方法来评估Gen-AI模型的能力。

AI开发者们表示,我们也想玩点「新鲜的」。


MC-Bench的本质是在测试AI模型的文本理解和编码能力。

通过类似Chatbot Arena的方式来进行模型评比。


对于为何选择游戏,选择Minecraft,Adi Singh觉得「游戏可能只是一种测试能动性推理的媒介,比现实生活更安全,也更适合测试目的,因此在我看来更为理想」。

从Adi Singh个人网站来看,他对于使用Minecraft方块进行AI评测应该是「蓄谋已久」,Adi Singh展示很多利用大模型生成Minecraft方块的精彩案例。

比如,gpt-4.5根据提示「构建一艘在云层中飞行的蒸汽朋克风格飞艇」。


再比如,claude-3.7-sonnet有一个令人印象非常深刻的Minecraft模型,根据提示「韩国友谊之钟」生成。


并且,社区成员对MC-Bench的评价也很高。


比如目前就职于OpenAI的基础研究员Aidan McLaughlin,对Minecraft Bench给予了很高的评价:你应该密切关注MC-Bench!

Aid an McLaughlin同时给出了他认为最佳的人工智能基准应具有:

  • 审计数据的乐趣 (与其他所有基准测试都不同)

  • 测试真正关心的功能 (代码、美学、意识)

  • 甚至可以辨别顶级型号之间的性能差异


游戏测评AI似乎依然是「主流创意」

在Claude 3.7 Sonnet发布时说过,模型降低了在数学、竞赛和编程方面的特化程度,有「更好」的思考能力。

那么如何评测新模型的「思考」能力呢?

答案就是游戏《宝可梦》,这不是开玩笑。

Claude通过配备了透过程序来操控游戏的特定「按钮」。

甚至还在Twitch上直播了Claude玩游戏的全过程,可以看到它如何学习、思考并采取行动。


不论是传统的基准测试,还是类似MC-Bench的创意测试。

对于生成式AI的能力评测,目前依然没有一个「一劳永逸」的标准。

传统基准测试的评估结果多采用单一的客观分数(如准确率),忽视了人类实际感受和主观评价的维度。

在生成式AI中,美学感知、创造力、直观性往往更加重要,但这些因素很难在传统的标准化测试中体现出来。

也许类似MC-Bench这样的创意评测会给未来的AI评测带来新的「范式」。

而新的AI评测「范式」也许会加速推动AI的发展。

参考资料:

https://mcbench.ai/

https://techcrunch.com/2025/03/20/a-high-schooler-built-a-website-that-lets-you-challenge-ai-models-to-a-minecraft-build-off/

https://finance.yahoo.com/news/high-schooler-built-website-lets-201110310.html

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

/阅读下一篇/

第二届具身智能大会胜利召开!重磅嘉宾齐聚共绘具身智能发展蓝图

返回网易首页 下载网易新闻客户端
相关推荐
热点推荐
马洛塔:国米在欧冠10场赚1亿欧,在意甲即使夺冠&38场只赚9500万

马洛塔:国米在欧冠10场赚1亿欧,在意甲即使夺冠&38场只赚9500万

直播吧
2025-04-02 06:56:07
41岁韩庚节目中忘戴假发,头顶秃了一大片,断崖式衰老引热议

41岁韩庚节目中忘戴假发,头顶秃了一大片,断崖式衰老引热议

柠檬有娱乐
2025-03-31 10:26:02
俄媒爆料,普京最信任的卡德罗夫,已为全家老小找好退路?

俄媒爆料,普京最信任的卡德罗夫,已为全家老小找好退路?

国学聚焦
2025-04-02 14:38:18
2025福布斯亿万富豪榜:快船老板鲍尔默反超盖茨1180亿美元排第10

2025福布斯亿万富豪榜:快船老板鲍尔默反超盖茨1180亿美元排第10

直播吧
2025-04-02 09:25:05
性学专家李银河的10句非常通透的话

性学专家李银河的10句非常通透的话

娱乐洞察点点
2025-03-25 00:06:55
1场10-6后,8强全部出炉!塞尔比创纪录,2虎PK,中国军团2胜2负

1场10-6后,8强全部出炉!塞尔比创纪录,2虎PK,中国军团2胜2负

刘姚尧的文字城堡
2025-04-02 05:57:08
翻阳湖退水导致大量鱼搁浅,渔政:禁止买卖,违者严肃处理

翻阳湖退水导致大量鱼搁浅,渔政:禁止买卖,违者严肃处理

映射生活的身影
2025-04-01 17:49:39
中式英语盛行之后,西方学者忧心忡忡:英语或将成为中国一个方言

中式英语盛行之后,西方学者忧心忡忡:英语或将成为中国一个方言

百家杂评
2025-03-31 07:35:33
《十六岁的花季》重聚!“白雪”依然年轻,战士强显老,2人去世

《十六岁的花季》重聚!“白雪”依然年轻,战士强显老,2人去世

180°视角
2025-04-01 11:26:25
美军继续增兵,以色列也要开打!俄罗斯:一旦开战毁灭性灾难

美军继续增兵,以色列也要开打!俄罗斯:一旦开战毁灭性灾难

小彭的灿烂笔记1
2025-04-02 06:42:30
台湾同胞幽默喊话解放军,对开战提了九个要求,节假日不能出兵

台湾同胞幽默喊话解放军,对开战提了九个要求,节假日不能出兵

车马点兵V
2025-03-13 22:38:01
普京亲口说出了最坏结局,俄罗斯如果失败,后果只有一个?

普京亲口说出了最坏结局,俄罗斯如果失败,后果只有一个?

八斗小先生
2025-04-02 13:52:44
吹风机是大补,医生提醒:一个吹风机等于半个老中医!不要嫌弃

吹风机是大补,医生提醒:一个吹风机等于半个老中医!不要嫌弃

今日养生之道
2025-03-24 04:37:59
寿命长短与喝酒有很大关系?调查11558名饮酒者,终于有了答案

寿命长短与喝酒有很大关系?调查11558名饮酒者,终于有了答案

肿瘤的真相与误区
2025-03-31 13:36:21
北京网友:职工社保最低档15年,退休金1714元,交的比领的还多

北京网友:职工社保最低档15年,退休金1714元,交的比领的还多

小人物看尽人间百态
2025-04-01 12:12:30
破防!台湾同胞对黄帝许愿“台湾回归祖国”

破防!台湾同胞对黄帝许愿“台湾回归祖国”

大象新闻
2025-04-01 16:42:23
活埋数百华人的公寓,已充满腐臭味,中国救援队传来好消息

活埋数百华人的公寓,已充满腐臭味,中国救援队传来好消息

慎独赢
2025-04-01 20:43:00
66岁唐鹤德第22年悼念张国荣遭吐槽:“差不多得了好吗?”

66岁唐鹤德第22年悼念张国荣遭吐槽:“差不多得了好吗?”

杨哥历史
2025-04-01 14:25:24
李双江怒批《罗刹海市》,3W退休金被取消,李天一移美潇洒挥霍

李双江怒批《罗刹海市》,3W退休金被取消,李天一移美潇洒挥霍

坦然风云
2025-04-02 12:06:14
对台军演代号有变,29国不许大陆施压,美国扬言挺台,菲也要介入

对台军演代号有变,29国不许大陆施压,美国扬言挺台,菲也要介入

今墨缘
2025-04-02 13:19:58
2025-04-02 15:16:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
12453文章数 65998关注度
往期回顾 全部

科技要闻

对智能驾驶的宣传,不能再含糊其辞了

头条要闻

媒体:大陆抵近台岛军演当日 台湾股市上涨584.27点

体育要闻

约基奇61分三双狂刷纪录 鏖战52分钟太累了

娱乐要闻

《浪姐6》三公结果曝光!全场喊黑幕

财经要闻

"家装第一股"东易日盛资金链断裂真相

汽车要闻

小米SU7爆燃事故 雷军: 会用行动回答大家的问题

态度原创

本地
教育
房产
亲子
公开课

本地新闻

我在新昌当女主|梅渚古村美到失语!江南宋风来打卡

教育要闻

父母是孩子的土壤,别让父母的焦虑影响到孩子

房产要闻

销量暴涨600%!海南这里,楼市真拼了!

亲子要闻

出门在外,面子全靠女儿撑着,爸爸晒出自家可爱女儿

公开课

李玫瑾:为什么性格比能力更重要?