网易首页 > 网易号 > 正文 申请入驻

画图猜词与《我的世界》能测出AI创造力?

0
分享至

大多数人工智能基准测试给我们提供的有用信息并不多。

因此,一些人工智能爱好者正在将游戏作为测试人工智能解决问题能力的一种方式。

身为自由职业者的人工智能开发者保罗·卡尔克拉夫特(Paul Calcraft)开发了一款应用程序,在其中两个人工智能模型可以相互玩类似画图猜词的游戏。一个模型涂鸦,而另一个模型试图猜测涂鸦代表什么。

“我觉得从模型能力这个角度来看,这听起来超级有趣,还可能很有意义,”卡尔克拉夫特在接受 TechCrunch 采访时表示。“所以我在一个阴天的星期六待在室内把它完成了。”

卡尔克拉夫特的灵感来自英国程序员西蒙·威利森(Simon Willison)的一个类似项目,该项目要求模型绘制一幅骑自行车的鹈鹕的矢量图。和卡尔克拉夫特一样,威利森选择了一个他认为会迫使模型“思考”超出其训练数据内容的挑战。

“这个想法是要设定一个无法作弊的基准,”卡尔克拉夫特说。“一个不能通过记住训练期间以前见过的特定答案或简单模式来击败的基准。”

16 岁的阿多尼斯·辛格(Adonis Singh)也认为《我的世界》属于这种“难以游戏化”的类别。

他创建了一个名为 Mcbench 的工具,这个工具能让模型控制《我的世界》中的角色,并测试其设计结构的能力,类似于微软的Project Malmo项目。

“我觉得《我的世界》考验了模型的应变能力,并赋予了它们更多的自主性,”他告诉 TechCrunch。“它不像(其他)基准那样受到严格的限制,也没有那么饱和。”

使用游戏来对人工智能进行基准测试并不是什么新鲜事。这个想法可以追溯到几十年前:数学家克劳德·香农在 1949 年认为,像国际象棋这样的游戏对于“智能”软件来说是一个有价值的挑战。最近,Alphabet 的 DeepMind 开发了一个模型,可以玩《Pong》和《Breakout》;OpenAI 训练人工智能参加Dota 2比赛;Meta 设计了一个算法,可以与专业的德州扑克玩家抗衡。

但现在不同的是,爱好者们正在将大型语言模型(LLMs)——能够分析文本、图像等的模型——与游戏连接起来,以探究它们在逻辑方面的表现有多好。

有很多的 LLMs,从Gemini和Claude到GPT-4o,可以说它们都有着不同的“氛围”。它们在一次交互到下一次交互中“感觉”不同——这种现象可能难以量化。

“大家都知道大型语言模型对提问的特定方式很敏感,而且通常不可靠且难以预测,”卡尔克拉夫特说。

艾伯塔大学的人工智能研究员兼教授马修·古兹迪尔表示,与基于文本的基准测试相比,游戏提供了一种直观的视觉方式来比较模型的表现情况和行为方式。

“我们可以认为每个基准测试都给我们提供了针对特定类型问题(如推理或交流)的现实的不同简化,”他说。“游戏只是可以用人工智能进行决策的其他方式,所以人们像使用任何其他方法一样使用它们。”

熟悉生成式人工智能历史的人会注意到画图猜词与生成对抗网络(GANs)有多相似,在这个过程中,创建者模型向判别器模型发送图像,然后由判别器模型对其进行评估。

卡尔克拉夫特认为,画图猜词可以捕捉大型语言模型理解形状、颜色和介词(例如,“in”与“on”的含义)等概念的能力。他不会说这个游戏是推理的可靠测试,但他认为获胜需要策略和理解线索的能力——这两点模型都不容易做到。

“我也真的很喜欢画图猜词游戏近乎对抗性的本质,类似于生成对抗网络(GANs),在这个游戏中,存在两种不同的角色:一个负责画图,另一个负责猜测,”他说。“画图最好的人并非是最具艺术感的,而是能够最为清晰地向其他语言模型(包括速度更快但能力差很多的模型!)的受众传达想法的那个人”

“卡尔克拉夫特警告道:‘画图猜词是一个并非马上实用或者现实的玩具式问题。’“话虽这么说,我着实认为空间理解和多模态属于人工智能进步的关键要素,所以语言模型的画图猜词或许是这一进程中的一小步、早期的一步。”

辛格觉得《我的世界》也是一个有用的基准,而且能够衡量语言模型中的推理能力。“从我到目前为止测试的模型来看,结果与我在与推理相关的事情上对模型的信任程度完全一致,”他说。

其他人则不太确定。

专门从事人工智能研究的玛丽女王大学研究员迈克·库克觉得,《我的世界》作为人工智能测试平台并非特别特殊。

“我认为《我的世界》的部分魅力来自游戏领域之外的人,他们可能认为,因为它看起来像‘现实世界’,所以它与现实世界的推理或行动联系更为紧密,”库克告诉 TechCrunch。“从解决问题的角度来看,它与像《堡垒之夜》、《星露谷物语》或《魔兽世界》这样的视频游戏差异不大。它只是在外观上有着不同的装点,使其看起来更像是日常的一系列任务,比如建造东西或探索。”

就库克的观点而言,即使是最好的游戏人工智能系统通常也不能很好地适应新环境,并且不能轻易解决以前从未见过的问题。例如,一个在《我的世界》中表现出色的模型不太可能在《毁灭战士》中展现出任何真正的技艺。

“我认为从人工智能的角度来看,《我的世界》所具备的良好品质为极其微弱的奖励信号和一个程序性的世界,这意味着不可预测的挑战,”库克继续说道。“但它并不比其他任何视频游戏更能体现现实世界的情况。”

即便如此,观看大型语言模型建造城堡肯定存在一些迷人的地方。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
朱拉尼:欢迎参观我从2017年统治下的伊德利卜,有手机买

朱拉尼:欢迎参观我从2017年统治下的伊德利卜,有手机买

大风文字
2024-12-15 15:26:01
哈佛大学惊人发现:寿命长的人,从来不是靠多运动,而是这3点

哈佛大学惊人发现:寿命长的人,从来不是靠多运动,而是这3点

巢客HOME
2024-11-06 07:00:03
全新一代奥迪A6曝光!看完这外观造型,大卖又稳了?

全新一代奥迪A6曝光!看完这外观造型,大卖又稳了?

优视汽车
2025-01-02 15:05:14
90后美女看着大伯哥留下的5个娃,和丈夫说:我跪着也要养大他们

90后美女看着大伯哥留下的5个娃,和丈夫说:我跪着也要养大他们

娱乐洞察点点
2025-01-02 19:09:25
体制内现状,真实!

体制内现状,真实!

霹雳炮
2025-01-02 22:08:41
一把手又被抓了!日赚2.34亿的茅台,6年栽了3个董事长

一把手又被抓了!日赚2.34亿的茅台,6年栽了3个董事长

深蓝财经
2025-01-02 19:27:30
莫言:一个人对待家人不耐烦态度差,对外人又很客气和善是因为…

莫言:一个人对待家人不耐烦态度差,对外人又很客气和善是因为…

华人星光
2024-12-27 12:52:38
连续22场!文班亚马再破NBA神纪录,保罗定律又要应验了!

连续22场!文班亚马再破NBA神纪录,保罗定律又要应验了!

篮球板凳席
2024-12-30 14:21:41
明珍珍接受审讯时面露得意之色,看守所内的她,日子恐怕并不好过

明珍珍接受审讯时面露得意之色,看守所内的她,日子恐怕并不好过

观察鉴娱
2025-01-02 11:23:58
首秀7投全中!独得22分8助攻,这就是湖人想要的全明星后卫

首秀7投全中!独得22分8助攻,这就是湖人想要的全明星后卫

德译洋洋
2025-01-02 12:46:25
久违的火爆 举牌高达247次!海淀北五环地块土拍成交!

久违的火爆 举牌高达247次!海淀北五环地块土拍成交!

坠入二次元的海洋
2025-01-02 19:03:03
中国足球协会向山东泰山足球俱乐部致感谢信

中国足球协会向山东泰山足球俱乐部致感谢信

山东泰山足球俱乐部
2025-01-02 21:47:02
高院狠批柯文哲串证!七大铁证压顶,今晚再审,钟小平:恐就此玩完!

高院狠批柯文哲串证!七大铁证压顶,今晚再审,钟小平:恐就此玩完!

兰妮搞笑分享
2025-01-02 21:39:34
年纪轻轻,超级富豪,雷霆队亚历山大 2025 年的净资产

年纪轻轻,超级富豪,雷霆队亚历山大 2025 年的净资产

好火子
2025-01-03 02:07:59
刘翔恩师孙海平现状:两省都给发工资,每日2包烟,70岁仍硬朗

刘翔恩师孙海平现状:两省都给发工资,每日2包烟,70岁仍硬朗

喜欢农家生活的阿律
2025-01-01 18:54:08
悲哀!乒超决赛现苗头,王曼昱林诗栋成新版受害人,刘国梁该咋办

悲哀!乒超决赛现苗头,王曼昱林诗栋成新版受害人,刘国梁该咋办

小盖纪实
2025-01-02 10:31:17
马斯克大胜!未来四年,外籍者留美或将大开绿灯;毕业拿绿卡?

马斯克大胜!未来四年,外籍者留美或将大开绿灯;毕业拿绿卡?

牛哥说文史
2025-01-02 19:18:21
纽约突发大规模枪击事件

纽约突发大规模枪击事件

环球时报新闻
2025-01-02 16:31:41
2025年中大型SUV最新降价排名:最大降幅40%,豪华品牌成重灾区

2025年中大型SUV最新降价排名:最大降幅40%,豪华品牌成重灾区

蜉蝣说
2025-01-02 10:39:23
邮报:若努诺带诺丁汉森林重返欧战,他和球员将获丰厚奖金

邮报:若努诺带诺丁汉森林重返欧战,他和球员将获丰厚奖金

直播吧
2025-01-03 00:10:23
2025-01-03 03:43:00
科技的视界
科技的视界
最新国内外科技资讯
6456文章数 121关注度
往期回顾 全部

科技要闻

苹果新机频频促销 在华已连续5季度下滑

头条要闻

台北地方法院裁定柯文哲等4人羁押禁见

头条要闻

台北地方法院裁定柯文哲等4人羁押禁见

体育要闻

迈克·布朗,背锅侠的自我修养

娱乐要闻

张颂文要凉?家暴、假慈善,人设崩塌

财经要闻

证监会:"1月15号前释放全部利空"是谣言

汽车要闻

10万元级无图智驾 悦也PLUS全路况实测

态度原创

房产
游戏
艺术
健康
时尚

房产要闻

2025年,广州楼市稳了!

PS日本官推庆祝蛇年:只狼白蛇神亮相 压迫感十足!

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

属于北京的一处精神“乌托邦”宝地

2025年,一定要拥有这5件毛衣

无障碍浏览 进入关怀版