网易首页 > 网易号 > 正文 申请入驻

想纠正LMM犯错?没用!NUS华人团队:最强o1反馈修正率不到50%

0
分享至

新智元报道

编辑:英智

【新智元导读】LMM在人类反馈下表现如何?新加坡国立大学华人团队提出InterFeedback框架,结果显示,最先进的LMM通过人类反馈纠正结果的比例不到50%!

大规模多模态模型(Large Multimodal Models,LMM)在人类反馈下的表现如何?

这一问题对于利用LMM开发通用AI助手至关重要,现有的基准测试并未针对LMM与人类的交互智能进行测试。

来自新加坡国立大学的华人团队提出了InterFeedback,一个可应用任何LMM和数据集的交互式框架。

论文链接:https://arxiv.org/abs/2502.15027

在此基础上,团队引入了InterFeedback-Bench,用两个具有代表性的数据集(MMMU-Pro和MathVerse)来评估交互智能,并对10种不同的LMM进行测试。

InterFeedback-Bench旨在全面评估LMM:

1)交互式解决问题的能力;

2)解释反馈以提升自身的能力。

评估结果表明,最先进的LMM通过人类反馈纠正结果的比例不到50%!

交互式过程可提升大多数LMM解决难题的性能,现有LMM在解释和整合反馈方面表现欠佳。进行额外迭代不一定能得出正确的解决方案,高质量反馈至关重要。

人类在解决问题时,具有很强的适应性,能够从反馈中不断学习完善。同样,先进的LMM也应该能从反馈中学习,提高解决问题的能力。

评估LMM交互智能的关键挑战在于自动模型测试,不同模型对相同查询的响应不同,需要人类在每个对话轮次中提供定制化反馈。

InterFeedback框架设计原理

研究人员提出了InterFeedback,这是一个基于交互式问题解决的框架,通过GPT-4o等模型模拟人类反馈,让LMM在动态的交互环境中进行测试和学习。

InterFeedback-Bench将带有反馈的交互式问题解决过程,变成了一种数学模型,叫部分可观测马尔可夫决策过程(POMDP)。

通过状态空间、观测值、动作空间、转移函数和奖励函数等要素,精确地描述模型在交互过程中的行为和决策。

在实际应用中,当给定自然语言问题和输入图像时,模型基于当前状态获取观测值,生成自然语言回复。奖励函数通过精确匹配的方式判断任务的正确性,为模型提供反馈信号。

数据集构建

InterFeedback-Bench采用了两个有挑战性的数据集:MathVerse和MMMU-Pro。

MathVerse是一个视觉数学问题数据集,其中包含了各种需要结合图像和数学知识才能解决的问题。

MMMU-Pro则是综合性的多模态基准测试,涵盖了多个领域的专家级问题,包括科学、技术、工程和数学等。

通过巧妙地利用LMM(例如GPT-4o)来模拟人机交互,构建出具有针对性的测试数据集。

具体而言,通过选择反馈提供模型M_p答对,而反馈接收模型M_r答错的交集,确保反馈的相关性和可靠性。

InterFeedback框架

InterFeedback框架有两个角色:反馈接收者M_r和反馈提供者M_p。

M_r是准备接受基准测试的LMM,如Qwen2-VL,M_p是当前最优的LMM,如GPT-4o,用于在每个时间步代替人类提供反馈。

当M_r模型生成输出后,M_p会根据映射策略提供反馈,模型则根据反馈进行改进,如此循环,直到得到正确答案或达到预设的迭代次数。

在这个过程中,M_r根据当前的状态和观测信息,生成相应的动作。M_p则根据模型的回答,提供反馈信息,帮助模型改进自己的回答。

基于InterFeedback框架,团队构建了InterFeedback-Bench基准测试。这个基准测试旨在全面评估LMM交互式问题解决和反馈学习的能力。

人类评估基准测试

除了自动基准测试,研究团队还收集了InterFeedback-Human数据集,用于人工评估闭源模型。

与自动基准测试不同,InterFeedback-Human数据集的评估过程更注重人类的参与和反馈。用户根据模型的回答,提供详细的反馈信息,包括问题的分析、正确的思路和答案等。

通过这种方式,可以更深入地了解模型在实际人机交互中的表现,以及它们理解和处理人类反馈的能力。

实验结果与分析

研究人员设计了一系列实验,在MathVerse和MMMU-Pro两个具有代表性的数据集上,对多个开源LMM进行了全面评估。

用准确率和纠错率来评估结果,纠错率定义为所有错误样本中被纠正答案的样本所占的百分比。N表示样本总数,N_e表示错误样本的数量,N_c表示已被纠正的样本数量。

准确率和纠错率可以用以下公式表示:

交互过程能提高性能

实验结果表明,交互式过程对大多数LMM的性能提升有显著的促进作用。

InterFeedback框架能使大多数模型从GPT-4o和Claude-3.5-Sonnet等提供的反馈中受益。

例如,即使是性能较弱的Fuyu-8B模型,通过GPT-4o的反馈也能纠正24.1%的错误样本。这表明交互过程可以有效提高大多数LMM解决问题的能力。

难以通过反馈提升性能

尽管有先进模型提供的反馈,但大多数LMM仍难以纠正所有错误样本。

以Qwen2-VL-7B和Molmo为例,Qwen2-VL-7B在MathVerse数据集上使用GPT-4o的反馈时,纠错率为66.8%,但在MMMU-Pro数据集上仅为50.4%。

Molmo-7B在MathVerse和MMMU-Pro数据集上的纠错率分别为55.1%和51.7%,其余模型的纠错率普遍低于50%。

即使有LMM提供的反馈,当前的模型在通过反馈提升自身性能方面仍存在较大困难。

准确率可能无法反映模型能力

实验发现,准确率可能无法真实、全面地反映模型的实际能力。

例如,InternVL2-8B的准确率较高(38.1%),但其纠错率仅为49.6%。而准确率较低(22.5%)的Qwen2-VL-7B在使用GPT-4o的反馈时,却达到了最高的纠错率66.8%。

在MMMU-Pro数据集上也有类似情况,LLaVA-OneVision-7B的准确率排名第二(47.1%),但其纠错率仅为 31.7%,低于几个准确率较低的模型。

这表明仅通过准确率评估模型,可能无法全面体现其真实能力。

反馈质量至关重要

令人惊讶的是,所有模型都能从简单的二元(0/1)反馈中受益。

同时,研究发现反馈质量至关重要,低质量反馈对性能的损害比简单的二元反馈更大。

在MathVerse数据集上,对于一些模型,使用次优模型(Gemini-1.5-Flash)提供的简单二元反馈,其效果优于LMM生成的详细反馈。

人工基准测试的分析

在对OpenAI-o1、GPT-4o、Gemini-2.0和Claude-3.5-Sonnet等闭源模型的人工评估中,Claude-3.5的平均准确率最高,达到了48.3%。

从纠正率结果分析来看,不同模型从人类反馈中获益的轮次和程度存在明显差异。

GPT-4o在第一轮反馈中能够纠正41.9%的错误样本,显示出其对人类反馈的快速响应和学习能力。

Claude-3.5则在第二轮反馈中展现出强大的纠正性能,成功纠正了30.6%的错误样本。在第三轮,由于提供了真实答案,所有LMM都能够给出选择正确答案的推理步骤。

此外,不同任务类别中被纠正样本的分布也有所不同。

视觉逻辑任务大多在前两轮就能够得到有效解决,而纯文本数学任务和MMMU-Pro任务在前两轮的纠正相对较少。

相比之下,纯文本编码任务和MathVerse任务在前两轮也出现了一定比例的纠正,说明模型在这些领域具有一定的学习和改进能力。

参考资料:

https://huggingface.co/papers/2502.15027

https://arxiv.org/pdf/2502.15027

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
祖院长与曾主任的后续处理结果,可能是:丢官不丢岗。

祖院长与曾主任的后续处理结果,可能是:丢官不丢岗。

天气观察站
2025-11-08 08:12:10
伟大的9-6!吴宜泽兑现第3个赛点,淘汰赵心童进决赛,剑指破荒!

伟大的9-6!吴宜泽兑现第3个赛点,淘汰赵心童进决赛,剑指破荒!

刘姚尧的文字城堡
2025-11-07 21:55:16
曾经的亚洲第一美人,年轻时倾国倾城,现在却老了。美人也会老啊

曾经的亚洲第一美人,年轻时倾国倾城,现在却老了。美人也会老啊

乡野小珥
2025-11-07 14:58:46
网友偶遇32岁杨紫,竟被旁边路人抢镜,并没有网上吹的那么美

网友偶遇32岁杨紫,竟被旁边路人抢镜,并没有网上吹的那么美

草莓解说体育
2025-11-07 15:09:34
最让你瞬间开窍的一句话是什么?网友分享绝了:彻底清醒!

最让你瞬间开窍的一句话是什么?网友分享绝了:彻底清醒!

夜深爱杂谈
2025-11-07 08:04:40
全球都在看中国将如何救援航天员!俄罗斯和美国9个月,中国多久?

全球都在看中国将如何救援航天员!俄罗斯和美国9个月,中国多久?

来科点谱
2025-11-08 09:11:07
过年我带女友回家,她见到我母亲后惊呼:孙阿姨,怎么是你

过年我带女友回家,她见到我母亲后惊呼:孙阿姨,怎么是你

小月文史
2024-09-04 18:27:51
白百何疑开撕王传君冲热搜!疑因奖项分配不公,发文暗讽沪圈操作

白百何疑开撕王传君冲热搜!疑因奖项分配不公,发文暗讽沪圈操作

古木之草记
2025-11-05 18:13:32
网传康熙是洪承畴的私生子?基因检测惊曝清宫秘闻,专家回应了!

网传康熙是洪承畴的私生子?基因检测惊曝清宫秘闻,专家回应了!

你食不食油饼
2025-11-05 20:06:29
41岁白百何罕见露面,她的下胯变得好大呀,脸也胖了,像个大妈

41岁白百何罕见露面,她的下胯变得好大呀,脸也胖了,像个大妈

广西阿妹香香
2025-10-29 16:09:46
王家卫哪是口味重啊,分明是想要又没捞着,急得上火!

王家卫哪是口味重啊,分明是想要又没捞着,急得上火!

小光侃娱乐
2025-11-08 07:10:03
福建舰官宣入列!美方集体懵圈,一点消息没收到,中方喊话有深意

福建舰官宣入列!美方集体懵圈,一点消息没收到,中方喊话有深意

小涛叨叨
2025-11-07 15:44:03
中央候补委员落马,为今年首个任上落马的省会市委书记

中央候补委员落马,为今年首个任上落马的省会市委书记

上观新闻
2025-11-07 23:00:05
邓华离开军队时想带走两把枪,陈锡联难下决定,赖传珠怎么处理?

邓华离开军队时想带走两把枪,陈锡联难下决定,赖传珠怎么处理?

柳絮忆史
2025-11-08 09:12:23
泰州通报:周树平被“双开”

泰州通报:周树平被“双开”

扬子晚报
2025-11-07 18:24:57
咖啡再次被关注!医生发现:动脉硬化患者常喝咖啡,或有5个变化

咖啡再次被关注!医生发现:动脉硬化患者常喝咖啡,或有5个变化

剑道万古似长夜
2025-11-07 09:59:30
湖人传闻:洛杉矶湖人能否促成东契奇与前独行侠队友重聚?

湖人传闻:洛杉矶湖人能否促成东契奇与前独行侠队友重聚?

好火子
2025-11-08 05:49:25
马斯克可能真觉得,造车没意思了。

马斯克可能真觉得,造车没意思了。

差评XPIN
2025-11-08 00:04:08
重磅!“超级牛散”章建平的爱人已潜入这个超级赛道

重磅!“超级牛散”章建平的爱人已潜入这个超级赛道

证券市场周刊市场号
2025-11-07 20:14:33
反击荷兰,必出重拳

反击荷兰,必出重拳

六爷阿旦
2025-11-07 17:22:26
2025-11-08 10:20:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13811文章数 66238关注度
往期回顾 全部

科技要闻

美股“AI八巨头”单周市值损失8000亿美元

头条要闻

就两岸关系 郑丽文、马英九最新表态

头条要闻

就两岸关系 郑丽文、马英九最新表态

体育要闻

是天才更是强者,18岁的全红婵迈过三道坎

娱乐要闻

王家卫的“看人下菜碟”?

财经要闻

小马、文远回港上市 但自动驾驶还没赢家

汽车要闻

美式豪华就是舒适省心 林肯航海家场地试驾

态度原创

艺术
家居
教育
游戏
公开课

艺术要闻

Eric Drummond:加拿大90后年轻画家

家居要闻

现代自由 功能美学居所

教育要闻

一罐麦片,两条人命,双一流大学研究生伏法,背后的真相是什么?

主机御三家被塞进一个盒子!B站UP打造三合一神器

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版