网易首页 > 网易号 > 正文 申请入驻

画图猜词与《我的世界》能测出AI创造力?

0
分享至

大多数人工智能基准测试给我们提供的有用信息并不多。

因此,一些人工智能爱好者正在将游戏作为测试人工智能解决问题能力的一种方式。

身为自由职业者的人工智能开发者保罗·卡尔克拉夫特(Paul Calcraft)开发了一款应用程序,在其中两个人工智能模型可以相互玩类似画图猜词的游戏。一个模型涂鸦,而另一个模型试图猜测涂鸦代表什么。

“我觉得从模型能力这个角度来看,这听起来超级有趣,还可能很有意义,”卡尔克拉夫特在接受 TechCrunch 采访时表示。“所以我在一个阴天的星期六待在室内把它完成了。”

卡尔克拉夫特的灵感来自英国程序员西蒙·威利森(Simon Willison)的一个类似项目,该项目要求模型绘制一幅骑自行车的鹈鹕的矢量图。和卡尔克拉夫特一样,威利森选择了一个他认为会迫使模型“思考”超出其训练数据内容的挑战。

“这个想法是要设定一个无法作弊的基准,”卡尔克拉夫特说。“一个不能通过记住训练期间以前见过的特定答案或简单模式来击败的基准。”

16 岁的阿多尼斯·辛格(Adonis Singh)也认为《我的世界》属于这种“难以游戏化”的类别。

他创建了一个名为 Mcbench 的工具,这个工具能让模型控制《我的世界》中的角色,并测试其设计结构的能力,类似于微软的Project Malmo项目。

“我觉得《我的世界》考验了模型的应变能力,并赋予了它们更多的自主性,”他告诉 TechCrunch。“它不像(其他)基准那样受到严格的限制,也没有那么饱和。”

使用游戏来对人工智能进行基准测试并不是什么新鲜事。这个想法可以追溯到几十年前:数学家克劳德·香农在 1949 年认为,像国际象棋这样的游戏对于“智能”软件来说是一个有价值的挑战。最近,Alphabet 的 DeepMind 开发了一个模型,可以玩《Pong》和《Breakout》;OpenAI 训练人工智能参加Dota 2比赛;Meta 设计了一个算法,可以与专业的德州扑克玩家抗衡。

但现在不同的是,爱好者们正在将大型语言模型(LLMs)——能够分析文本、图像等的模型——与游戏连接起来,以探究它们在逻辑方面的表现有多好。

有很多的 LLMs,从Gemini和Claude到GPT-4o,可以说它们都有着不同的“氛围”。它们在一次交互到下一次交互中“感觉”不同——这种现象可能难以量化。

“大家都知道大型语言模型对提问的特定方式很敏感,而且通常不可靠且难以预测,”卡尔克拉夫特说。

艾伯塔大学的人工智能研究员兼教授马修·古兹迪尔表示,与基于文本的基准测试相比,游戏提供了一种直观的视觉方式来比较模型的表现情况和行为方式。

“我们可以认为每个基准测试都给我们提供了针对特定类型问题(如推理或交流)的现实的不同简化,”他说。“游戏只是可以用人工智能进行决策的其他方式,所以人们像使用任何其他方法一样使用它们。”

熟悉生成式人工智能历史的人会注意到画图猜词与生成对抗网络(GANs)有多相似,在这个过程中,创建者模型向判别器模型发送图像,然后由判别器模型对其进行评估。

卡尔克拉夫特认为,画图猜词可以捕捉大型语言模型理解形状、颜色和介词(例如,“in”与“on”的含义)等概念的能力。他不会说这个游戏是推理的可靠测试,但他认为获胜需要策略和理解线索的能力——这两点模型都不容易做到。

“我也真的很喜欢画图猜词游戏近乎对抗性的本质,类似于生成对抗网络(GANs),在这个游戏中,存在两种不同的角色:一个负责画图,另一个负责猜测,”他说。“画图最好的人并非是最具艺术感的,而是能够最为清晰地向其他语言模型(包括速度更快但能力差很多的模型!)的受众传达想法的那个人”

“卡尔克拉夫特警告道:‘画图猜词是一个并非马上实用或者现实的玩具式问题。’“话虽这么说,我着实认为空间理解和多模态属于人工智能进步的关键要素,所以语言模型的画图猜词或许是这一进程中的一小步、早期的一步。”

辛格觉得《我的世界》也是一个有用的基准,而且能够衡量语言模型中的推理能力。“从我到目前为止测试的模型来看,结果与我在与推理相关的事情上对模型的信任程度完全一致,”他说。

其他人则不太确定。

专门从事人工智能研究的玛丽女王大学研究员迈克·库克觉得,《我的世界》作为人工智能测试平台并非特别特殊。

“我认为《我的世界》的部分魅力来自游戏领域之外的人,他们可能认为,因为它看起来像‘现实世界’,所以它与现实世界的推理或行动联系更为紧密,”库克告诉 TechCrunch。“从解决问题的角度来看,它与像《堡垒之夜》、《星露谷物语》或《魔兽世界》这样的视频游戏差异不大。它只是在外观上有着不同的装点,使其看起来更像是日常的一系列任务,比如建造东西或探索。”

就库克的观点而言,即使是最好的游戏人工智能系统通常也不能很好地适应新环境,并且不能轻易解决以前从未见过的问题。例如,一个在《我的世界》中表现出色的模型不太可能在《毁灭战士》中展现出任何真正的技艺。

“我认为从人工智能的角度来看,《我的世界》所具备的良好品质为极其微弱的奖励信号和一个程序性的世界,这意味着不可预测的挑战,”库克继续说道。“但它并不比其他任何视频游戏更能体现现实世界的情况。”

即便如此,观看大型语言模型建造城堡肯定存在一些迷人的地方。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
养殖虾都是吃抗生素、激素长大的?到底能不能吃?告诉你真相

养殖虾都是吃抗生素、激素长大的?到底能不能吃?告诉你真相

历史求知所
2024-11-28 18:40:02
《士兵突击》拍摄期间,剧组几名演员在吃饭时的真实留影

《士兵突击》拍摄期间,剧组几名演员在吃饭时的真实留影

视点历史
2024-11-28 20:54:10
最后24小时离岛,赖清德找潜逃方向,美航母跃跃欲试,大陆已出手

最后24小时离岛,赖清德找潜逃方向,美航母跃跃欲试,大陆已出手

说天说地说实事
2024-11-29 19:39:59
江青彩色老照片:和周总理在一起,和身边工作人员合影很亲切

江青彩色老照片:和周总理在一起,和身边工作人员合影很亲切

历史控
2024-11-27 21:23:52
笑喷!陈梦完成研究生论文答辩,教室复习端着论文问:这是我写的吗?

笑喷!陈梦完成研究生论文答辩,教室复习端着论文问:这是我写的吗?

818体育
2024-11-28 21:19:14
陈博彰任湖南省财政厅厅长

陈博彰任湖南省财政厅厅长

鲁中晨报
2024-11-29 12:04:04
格陵兰岛冰下30米美军导弹基地结构曝光,花费250亿美元却最终弃用

格陵兰岛冰下30米美军导弹基地结构曝光,花费250亿美元却最终弃用

红星新闻
2024-11-28 10:31:10
11枚洲际导弹落在基辅,国防大楼统帅大楼爆炸,内场77名最高统帅

11枚洲际导弹落在基辅,国防大楼统帅大楼爆炸,内场77名最高统帅

听风者说
2024-11-28 22:18:18
你以为他是流浪汉?其实人家穿的是巴黎世家新款!

你以为他是流浪汉?其实人家穿的是巴黎世家新款!

人情皆文史
2024-11-26 22:38:34
普京的警告失效,美国和北约计划向乌克兰提供核弹,中方表态亮了

普京的警告失效,美国和北约计划向乌克兰提供核弹,中方表态亮了

猎火照狼山
2024-11-29 00:05:07
禽兽!上海民警猥亵继女长达11年,曾叫嚣:当你妈面强奸你又怎样

禽兽!上海民警猥亵继女长达11年,曾叫嚣:当你妈面强奸你又怎样

吭哧有力
2024-11-28 20:45:01
曾脸谱化人性,公式化模板成我国文艺史噩梦,为何它40年后又翻红

曾脸谱化人性,公式化模板成我国文艺史噩梦,为何它40年后又翻红

毒舌电影
2024-11-28 18:15:02
他拿美国900亿补贴,盖了一座年产52块电池的工厂

他拿美国900亿补贴,盖了一座年产52块电池的工厂

帅真商业
2024-11-29 17:11:54
婚姻法新规:非夫妻关系的男女自愿同居,如果被查到之后...

婚姻法新规:非夫妻关系的男女自愿同居,如果被查到之后...

感觉会火
2024-10-29 12:10:31
降薪30%~50%!医生叹息:勒紧裤腰带

降薪30%~50%!医生叹息:勒紧裤腰带

康迅网
2024-11-29 17:07:58
iPhone15ProMax售价大跳水,256GB下跌2371元,等等党又赢了

iPhone15ProMax售价大跳水,256GB下跌2371元,等等党又赢了

科技阿维
2024-11-29 14:44:21
得了中方恩惠后,石破茂看清局势,向中国派出一支等了12年的队伍

得了中方恩惠后,石破茂看清局势,向中国派出一支等了12年的队伍

猎火照狼山
2024-11-29 00:05:03
别看1945年苏联还有千万大军,但打进柏林时苏联就剩最后一口气了

别看1945年苏联还有千万大军,但打进柏林时苏联就剩最后一口气了

寻途
2024-11-27 22:14:03
俄乌局势一夜大变?特朗普宣布爆炸性消息,泽连斯基“靠山”已倒

俄乌局势一夜大变?特朗普宣布爆炸性消息,泽连斯基“靠山”已倒

傲气经说
2024-11-29 15:01:54
2013年,被西班牙夫妇收养的中国女孩遇害,养父电脑藏大量不雅照

2013年,被西班牙夫妇收养的中国女孩遇害,养父电脑藏大量不雅照

就一点
2024-11-25 00:52:17
2024-11-29 20:15:00
科技的视界
科技的视界
最新国内外科技资讯
6461文章数 116关注度
往期回顾 全部

科技要闻

"AGI不是大杀器,是普通人每天在用的产品"

头条要闻

女子霸占法拍房5年被强制迁出 买房者入住后遭其滋扰

头条要闻

女子霸占法拍房5年被强制迁出 买房者入住后遭其滋扰

体育要闻

穆雷与德约科维奇能凑成王炸组合吗?

娱乐要闻

叶珂被曝独自去产检,他俩真分了吗

财经要闻

专家建议将农民养老金提升至每月500元

汽车要闻

问界M7今年累计交付量已突破18万辆

态度原创

本地
游戏
时尚
教育
公开课

本地新闻

云游中国|来伦布夏果感受充满Passion的人生

《炼金工房》新作角色设定图公布 这令人安心的肉腿

中年女性别总穿黑白灰,给秋冬一点色彩,穿对了减龄又有魅力

教育要闻

一年时间,76本!为什么总能帮新人作者卖爆图书?

公开课

一块玻璃,如何改变人类世界?

无障碍浏览 进入关怀版