网易首页 > 网易号 > 正文 申请入驻

火了!高中生用Minecraft做AI基准,用户看图投票决定大模型排名

0
分享至

机器之心报道

编辑:蛋酱

偶然发现了一个很有趣的 AI 基准测试,点开链接,竟然是一个 MineCraft 作品投票页面?



如图所示,这些作品都是 AI 完成的,灰色框中的文字对应的是提示词。黑框是可点击的选项 ——A、B 或者持平。

网站地址:https://mcbench.ai/

来都来了,先投个票吧。投票之前,作品都是「匿名」的。只有在投票后,我们才能看到每个 Minecraft 作品是由哪个模型完成的。





在这个基准里,主要看三个维度:指令遵循、代码完成度和创造力。

AI 技术飞速演进的时代,传统的人工智能基准测试显然不够用了。总有人能想出一些新颖的测试方法,比如的沙盒建造游戏 Minecraft。

这就是我们刚刚看到的 Minecraft Benchmark(MC-Bench)。作为用户,我们能够参与的部分就是:投票。累计票数中的 ELO 分数决定了每个模型的排名。

有趣的是,无论采用哪种指标,排行榜的收敛程度都很高:Claude 3.7 & 3.5 和 GPT-4.5 都是断层领先。



从技术上讲,MC-Bench 是一个编程基准,因为模型需要编写代码来创建所提示的构建,如「冰霜雪人」(Frosty the Snowman)或「原始沙滩上迷人的热带海滨小屋」(a charming tropical beach hut on a pristine sandy shore)。



Prompt:"build a detailed steampunk-style airship flying among the clouds"(一艘在云层中飞行的详细蒸汽朋克风格飞艇)

创办 MC-Bench 的 Adi Singh 是个高中生,在他看来,用 Minecraft 做测试基准的价值并不在于游戏本身,而在于「人们对它的熟悉程度」,毕竟它是有史以来最畅销的视频游戏。

对于大多数 MC-Bench 用户来说,评价雪人是否更好看要比研究代码更容易,这使得该项目具有更广泛的吸引力,从而有可能收集更多数据,以了解哪些模型的得分始终更高。

退一万步说,即使是没有玩过这款游戏的人,也可以评估出哪个菠萝的块状表现形式更好,请参考下面这个例子:



「目前,我们只是在进行简单的构建,以思考我们自 GPT-3 时代以来已经走了多远,但(我们)可以看到自己正在扩展到这些较长形式的计划和目标导向型任务。游戏可能只是一种测试智能体推理的媒介,它比现实生活中更安全,测试目的也更可控,因此在我看来更理想。」

研究人员经常在标准化评估中对人工智能模型进行测试,其中很多测试都会给人工智能带来主场优势。由于人工智能模型的训练方式,它们天生就擅长解决某些具体的问题,尤其是需要死记硬背或基础推理的问题。

简单地说,OpenAI 的 GPT-4 可以在 LSAT 考试中取得第 88 百分位数的成绩,但却无法辨别「Strawberry」一词中有多少个 「R」。Anthropic 的 Claude 3.7 Sonnet 在一项标准化软件工程基准测试中取得了 62.3% 的准确率,但在玩《口袋妖怪》时却比大多数的五岁孩子还差。

所以一些开放式的游戏反而能「另辟蹊径」,提供检验 AI 性能的新颖视角。在此之前,已经有很多知名游戏被加入 AI 基准测试的名单,比如《口袋妖怪》(Pokémon Red)、《街头霸王》(Street Fighter)和《猜字游戏》(Pictionary)。

《先别骂队友,上交如何让 DeepSeek R1 在分手厨房再也不糊锅?》

《Claude 玩宝可梦,卡关就「装死」重启,大模型:逃避可耻但有用》

MC-Bench 的作者表示,他其实希望能够让用户自由提示、自由投票,但这个玩法「又慢又贵」,目前阶段还不现实。



社区给 MC-Bench 的评价还是很高的,特别指出了它在「3D 空间理解和创造力」评估层面的价值。



MC-Bench 的网站目前列出了八位「特别鸣谢」的贡献者:Anthropic、谷歌、OpenAI 和阿里为该项目使用其产品运行基准提示提供了补贴,但这些公司在其他方面并无关联。



MC-Bench 团队还表示,面向研究人员,他们愿意开放后端查看权限,最终他们还将完全开放数据以供下载。



https://techcrunch.com/2025/03/20/a-high-schooler-built-a-website-that-lets-you-challenge-ai-models-to-a-minecraft-build-off/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

/阅读下一篇/

DeepSeek V3深夜低调升级,网友实测可媲美Claude 3.5/3.7 Sonnet

返回网易首页 下载网易新闻客户端
相关推荐
热点推荐
网传特朗普或绕过美国宪法再次参选总统!这种可能性有多大呢?

网传特朗普或绕过美国宪法再次参选总统!这种可能性有多大呢?

翻开历史和现实
2025-03-24 23:27:08
网传判决书:朱宏兴案发后曾委托刘震理联系王永珀,刘震理没联系

网传判决书:朱宏兴案发后曾委托刘震理联系王永珀,刘震理没联系

懂球帝
2025-03-25 09:20:34
乌军总司令瑟尔斯基表示,和平只有一种办法:把俄罗斯人打回边界

乌军总司令瑟尔斯基表示,和平只有一种办法:把俄罗斯人打回边界

风华讲史
2025-03-24 08:13:18
241万奖金!郑钦文PK世界第一:冲击4强+结束5连败 开球时间出炉

241万奖金!郑钦文PK世界第一:冲击4强+结束5连败 开球时间出炉

侃球熊弟
2025-03-25 10:51:11
首次披露,正厅级赵民已被查

首次披露,正厅级赵民已被查

政知新媒体
2025-03-24 15:11:17
瑞银预测:中国房地产拐点信号显现,预计房价将于明年初企稳

瑞银预测:中国房地产拐点信号显现,预计房价将于明年初企稳

南方都市报
2025-03-24 22:18:16
这就是恩将仇报的结果!万万没想到,尼日尔还是翻车了!

这就是恩将仇报的结果!万万没想到,尼日尔还是翻车了!

青青子衿
2025-03-24 09:58:50
36岁景甜增肥后气质大变,脸肉肉地,更像清纯女大学生了!

36岁景甜增肥后气质大变,脸肉肉地,更像清纯女大学生了!

木子爱娱乐大号
2025-03-21 14:28:22
香港商户宁愿生意惨淡,都不愿接受手机支付,澳门却很快以时俱进

香港商户宁愿生意惨淡,都不愿接受手机支付,澳门却很快以时俱进

行者聊官
2025-03-05 16:54:01
世纪婴儿离世,仅25岁,死因:严重医疗事故,家属:等待公道

世纪婴儿离世,仅25岁,死因:严重医疗事故,家属:等待公道

温柔看世界
2025-03-24 15:35:38
炸死真主党领袖的超级弹坑再现!炸死哈马斯总理却不伤难民帐篷

炸死真主党领袖的超级弹坑再现!炸死哈马斯总理却不伤难民帐篷

大风文字
2025-03-24 17:18:06
台湾民调发现最高88.9%“不支持回归”?真相比数据更残酷!

台湾民调发现最高88.9%“不支持回归”?真相比数据更残酷!

李昕言温度空间
2025-03-24 10:37:16
豪门媳妇郭晶晶取消全家马尔代夫行程,竟是因二年级儿子作业太多

豪门媳妇郭晶晶取消全家马尔代夫行程,竟是因二年级儿子作业太多

小娱乐悠悠
2025-03-24 11:53:30
妻子升镇长后要离婚,我冷笑,转身当上县长,她后悔不已求我回头

妻子升镇长后要离婚,我冷笑,转身当上县长,她后悔不已求我回头

红豆讲堂
2025-03-16 09:35:44
撞脸热巴的新疆美女导游火了:我在新疆就是一般水平!

撞脸热巴的新疆美女导游火了:我在新疆就是一般水平!

鲁中晨报
2025-03-23 22:12:08
故事:湖南一母亲对儿子太过娇纵,竟答应其不合理的要求,犯下大错

故事:湖南一母亲对儿子太过娇纵,竟答应其不合理的要求,犯下大错

红豆讲堂
2025-02-14 10:36:50
才知道,这10个品牌的酱油零添加,以后可以放心吃,再也不怕买错

才知道,这10个品牌的酱油零添加,以后可以放心吃,再也不怕买错

菜卫卫的日常美食
2025-03-24 14:51:45
厦门地下惊现百吨黄金密室!蒋介石败退前骚操作曝光 竟留这手后招

厦门地下惊现百吨黄金密室!蒋介石败退前骚操作曝光 竟留这手后招

超人强动物俱乐部
2025-03-24 20:01:50
美媒:中国欠美国1.6万亿,若不偿还,就拒付中国8600亿美元国债

美媒:中国欠美国1.6万亿,若不偿还,就拒付中国8600亿美元国债

文雅笔墨
2025-03-24 07:13:12
一图流|业界天赋怪,只有她敢称神雷!

一图流|业界天赋怪,只有她敢称神雷!

贵圈真乱
2025-03-24 12:14:51
2025-03-25 11:31:01
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
10260文章数 142269关注度
往期回顾 全部

科技要闻

新旧版DeepSeekV3对比实测,震惊海外用户

头条要闻

73岁正部级"老虎"被逮捕:贪婪腐化、搞权钱交易

体育要闻

拿0分的NBA首发,所有人都为他叫好

娱乐要闻

金秀贤猛料漫画曝出 网友:送他进监狱

财经要闻

李斌沟通会:回应300元洗手液

汽车要闻

至高可享4.4万现金优惠 捷途T1限时一口价12.28万起

态度原创

旅游
本地
手机
时尚
公开课

旅游要闻

速戳!深圳站进站指南,让出行更高效

本地新闻

用AI唤醒花花世界|锡城春光正当时,一半花开一半诗

手机要闻

荣耀 400 Lite 手机再曝光:1.08 亿主摄、天玑 7025 Ultra 芯片

芒果又押错宝,这届浪姐最值得翻红的是她

公开课

李玫瑾:为什么性格比能力更重要?