网易首页 > 网易号 > 正文 申请入驻

想纠正LMM犯错?没用!NUS华人团队:最强o1反馈修正率不到50%

0
分享至


新智元报道

编辑:英智

【新智元导读】LMM在人类反馈下表现如何?新加坡国立大学华人团队提出InterFeedback框架,结果显示,最先进的LMM通过人类反馈纠正结果的比例不到50%!

大规模多模态模型(Large Multimodal Models,LMM)在人类反馈下的表现如何?

这一问题对于利用LMM开发通用AI助手至关重要,现有的基准测试并未针对LMM与人类的交互智能进行测试。

来自新加坡国立大学的华人团队提出了InterFeedback,一个可应用任何LMM和数据集的交互式框架。


论文链接:https://arxiv.org/abs/2502.15027

在此基础上,团队引入了InterFeedback-Bench,用两个具有代表性的数据集(MMMU-Pro和MathVerse)来评估交互智能,并对10种不同的LMM进行测试。

InterFeedback-Bench旨在全面评估LMM:

1)交互式解决问题的能力;

2)解释反馈以提升自身的能力。

评估结果表明,最先进的LMM通过人类反馈纠正结果的比例不到50%!

交互式过程可提升大多数LMM解决难题的性能,现有LMM在解释和整合反馈方面表现欠佳。进行额外迭代不一定能得出正确的解决方案,高质量反馈至关重要。

人类在解决问题时,具有很强的适应性,能够从反馈中不断学习完善。同样,先进的LMM也应该能从反馈中学习,提高解决问题的能力。


评估LMM交互智能的关键挑战在于自动模型测试,不同模型对相同查询的响应不同,需要人类在每个对话轮次中提供定制化反馈。

InterFeedback框架设计原理

研究人员提出了InterFeedback,这是一个基于交互式问题解决的框架,通过GPT-4o等模型模拟人类反馈,让LMM在动态的交互环境中进行测试和学习。

InterFeedback-Bench将带有反馈的交互式问题解决过程,变成了一种数学模型,叫部分可观测马尔可夫决策过程(POMDP)。

通过状态空间、观测值、动作空间、转移函数和奖励函数等要素,精确地描述模型在交互过程中的行为和决策。

在实际应用中,当给定自然语言问题和输入图像时,模型基于当前状态获取观测值,生成自然语言回复。奖励函数通过精确匹配的方式判断任务的正确性,为模型提供反馈信号。

数据集构建

InterFeedback-Bench采用了两个有挑战性的数据集:MathVerse和MMMU-Pro。

MathVerse是一个视觉数学问题数据集,其中包含了各种需要结合图像和数学知识才能解决的问题。

MMMU-Pro则是综合性的多模态基准测试,涵盖了多个领域的专家级问题,包括科学、技术、工程和数学等。


通过巧妙地利用LMM(例如GPT-4o)来模拟人机交互,构建出具有针对性的测试数据集。

具体而言,通过选择反馈提供模型M_p答对,而反馈接收模型M_r答错的交集,确保反馈的相关性和可靠性。

InterFeedback框架

InterFeedback框架有两个角色:反馈接收者M_r和反馈提供者M_p。

M_r是准备接受基准测试的LMM,如Qwen2-VL,M_p是当前最优的LMM,如GPT-4o,用于在每个时间步代替人类提供反馈。


当M_r模型生成输出后,M_p会根据映射策略提供反馈,模型则根据反馈进行改进,如此循环,直到得到正确答案或达到预设的迭代次数。

在这个过程中,M_r根据当前的状态和观测信息,生成相应的动作。M_p则根据模型的回答,提供反馈信息,帮助模型改进自己的回答。

基于InterFeedback框架,团队构建了InterFeedback-Bench基准测试。这个基准测试旨在全面评估LMM交互式问题解决和反馈学习的能力。

人类评估基准测试

除了自动基准测试,研究团队还收集了InterFeedback-Human数据集,用于人工评估闭源模型。

与自动基准测试不同,InterFeedback-Human数据集的评估过程更注重人类的参与和反馈。用户根据模型的回答,提供详细的反馈信息,包括问题的分析、正确的思路和答案等。

通过这种方式,可以更深入地了解模型在实际人机交互中的表现,以及它们理解和处理人类反馈的能力。

实验结果与分析

研究人员设计了一系列实验,在MathVerse和MMMU-Pro两个具有代表性的数据集上,对多个开源LMM进行了全面评估。

用准确率和纠错率来评估结果,纠错率定义为所有错误样本中被纠正答案的样本所占的百分比。N表示样本总数,N_e表示错误样本的数量,N_c表示已被纠正的样本数量。

准确率和纠错率可以用以下公式表示:


交互过程能提高性能

实验结果表明,交互式过程对大多数LMM的性能提升有显著的促进作用。

InterFeedback框架能使大多数模型从GPT-4o和Claude-3.5-Sonnet等提供的反馈中受益。

例如,即使是性能较弱的Fuyu-8B模型,通过GPT-4o的反馈也能纠正24.1%的错误样本。这表明交互过程可以有效提高大多数LMM解决问题的能力。



难以通过反馈提升性能

尽管有先进模型提供的反馈,但大多数LMM仍难以纠正所有错误样本。

以Qwen2-VL-7B和Molmo为例,Qwen2-VL-7B在MathVerse数据集上使用GPT-4o的反馈时,纠错率为66.8%,但在MMMU-Pro数据集上仅为50.4%。

Molmo-7B在MathVerse和MMMU-Pro数据集上的纠错率分别为55.1%和51.7%,其余模型的纠错率普遍低于50%。

即使有LMM提供的反馈,当前的模型在通过反馈提升自身性能方面仍存在较大困难。

准确率可能无法反映模型能力

实验发现,准确率可能无法真实、全面地反映模型的实际能力。


例如,InternVL2-8B的准确率较高(38.1%),但其纠错率仅为49.6%。而准确率较低(22.5%)的Qwen2-VL-7B在使用GPT-4o的反馈时,却达到了最高的纠错率66.8%。

在MMMU-Pro数据集上也有类似情况,LLaVA-OneVision-7B的准确率排名第二(47.1%),但其纠错率仅为 31.7%,低于几个准确率较低的模型。

这表明仅通过准确率评估模型,可能无法全面体现其真实能力。

反馈质量至关重要

令人惊讶的是,所有模型都能从简单的二元(0/1)反馈中受益。

同时,研究发现反馈质量至关重要,低质量反馈对性能的损害比简单的二元反馈更大。

在MathVerse数据集上,对于一些模型,使用次优模型(Gemini-1.5-Flash)提供的简单二元反馈,其效果优于LMM生成的详细反馈。

人工基准测试的分析

在对OpenAI-o1、GPT-4o、Gemini-2.0和Claude-3.5-Sonnet等闭源模型的人工评估中,Claude-3.5的平均准确率最高,达到了48.3%。


从纠正率结果分析来看,不同模型从人类反馈中获益的轮次和程度存在明显差异。

GPT-4o在第一轮反馈中能够纠正41.9%的错误样本,显示出其对人类反馈的快速响应和学习能力。

Claude-3.5则在第二轮反馈中展现出强大的纠正性能,成功纠正了30.6%的错误样本。在第三轮,由于提供了真实答案,所有LMM都能够给出选择正确答案的推理步骤。


此外,不同任务类别中被纠正样本的分布也有所不同。

视觉逻辑任务大多在前两轮就能够得到有效解决,而纯文本数学任务和MMMU-Pro任务在前两轮的纠正相对较少。

相比之下,纯文本编码任务和MathVerse任务在前两轮也出现了一定比例的纠正,说明模型在这些领域具有一定的学习和改进能力。


参考资料:

https://huggingface.co/papers/2502.15027

https://arxiv.org/pdf/2502.15027

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
外媒揭秘郑钦文:常年居住安道尔,年收入高达2.2亿,是国际团宠

外媒揭秘郑钦文:常年居住安道尔,年收入高达2.2亿,是国际团宠

聚合大娱
2025-02-25 11:56:48
儿科专家李恩庆:有鼻炎的孩子,3种水果春天少吃,小心越吃越堵

儿科专家李恩庆:有鼻炎的孩子,3种水果春天少吃,小心越吃越堵

大明爱养生
2025-03-20 14:33:54
中国科学家突破193纳米激光技术,光刻机核心技术获重大进展!

中国科学家突破193纳米激光技术,光刻机核心技术获重大进展!

徐德文科学频道
2025-03-23 12:40:03
美国学术界和商界正对特朗普的行为保持沉默,他们终将为此后悔

美国学术界和商界正对特朗普的行为保持沉默,他们终将为此后悔

旁边者看世界
2025-03-22 23:32:11
网传判决书:梅州0-7海港,梅州守门员侯宇收30万好处费消极比赛

网传判决书:梅州0-7海港,梅州守门员侯宇收30万好处费消极比赛

直播吧
2025-03-23 19:28:08
给15名议员“发红包”,日本首相惹祸了

给15名议员“发红包”,日本首相惹祸了

中国新闻周刊
2025-03-23 14:50:11
博主为华为喊冤:Pura X 7499元其实不贵

博主为华为喊冤:Pura X 7499元其实不贵

安兔兔
2025-03-22 22:06:50
3.24早评|A股行情进入下半场!本周能否上涨?

3.24早评|A股行情进入下半场!本周能否上涨?

龙行天下虎
2025-03-24 01:07:53
网友们发现了鸦片战争中的12个细节

网友们发现了鸦片战争中的12个细节

清晖有墨
2025-03-16 16:52:46
《浪姐6》最讨厌的3位嘉宾,尴尬、没边界、惹人厌,不要再来了

《浪姐6》最讨厌的3位嘉宾,尴尬、没边界、惹人厌,不要再来了

小晨同学啊
2025-03-23 20:32:42
不打了!再见约基奇!NBA又一超巨趴窝……

不打了!再见约基奇!NBA又一超巨趴窝……

篮球实战宝典
2025-03-24 00:00:30
东北一电视台实习生:找不到人开单位通行证,走关系后领导笑着双手奉上

东北一电视台实习生:找不到人开单位通行证,走关系后领导笑着双手奉上

西虹市闲话
2025-03-23 22:17:06
历史打假指南:教科书不敢写的15个颠覆性真相

历史打假指南:教科书不敢写的15个颠覆性真相

茅塞盾开本尊
2025-03-22 20:49:08
乌克兰打明白了:破坏一国的基础设施要容易很多

乌克兰打明白了:破坏一国的基础设施要容易很多

大风文字
2025-03-18 11:57:42
又一运动品牌巨头跌落神坛,亏损21亿!曾是中年男人的“梦中情衣”

又一运动品牌巨头跌落神坛,亏损21亿!曾是中年男人的“梦中情衣”

明月聊史
2025-03-08 11:27:13
费南多着急了,社媒表态:不想踢巴乙,只想踢中超

费南多着急了,社媒表态:不想踢巴乙,只想踢中超

建哥说体育
2025-03-23 21:54:07
李富真哥哥李在镕现身北京,穿高定西服访小米工厂,戴眼镜很斯文

李富真哥哥李在镕现身北京,穿高定西服访小米工厂,戴眼镜很斯文

沧海一书客
2025-03-23 21:01:50
男子单月电费1万块,剪掉电箱里多余的电线,门外传来哐哐敲门声

男子单月电费1万块,剪掉电箱里多余的电线,门外传来哐哐敲门声

凯裕说故事
2025-03-20 15:46:08
260元会费打水漂?山姆被年轻人玩成穷鬼天堂,明星竟拖李箱扫货

260元会费打水漂?山姆被年轻人玩成穷鬼天堂,明星竟拖李箱扫货

小鹿姐姐情感说
2025-03-23 13:27:37
成都立交桥上两电车相撞,一车瞬间被烧成空架子,另一车被撞报废

成都立交桥上两电车相撞,一车瞬间被烧成空架子,另一车被撞报废

小人物看尽人间百态
2025-03-23 22:55:31
2025-03-24 01:52:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
12396文章数 65970关注度
往期回顾 全部

科技要闻

马斯克发声:你可以不买,但不必烧了它

头条要闻

专家:泽连斯基突访前线 特朗普或低估泽连斯基韧性

体育要闻

郑钦文两盘战胜汤森德 晋级迈阿密站16强

娱乐要闻

山河舞台现原形!江一燕咳血撕碎剧本

财经要闻

合肥通报三只羊网络科技有限公司整改情况

汽车要闻

搭1.5T发动机 大众新速腾申报图曝光

态度原创

本地
健康
房产
数码
亲子

本地新闻

用AI唤醒花花世界|锡城春光正当时,一半花开一半诗

护龈工具大PK,冠军会花落谁家?

房产要闻

海口楼市突然疯狂,国企大盘抄底首开,卖爆了!

数码要闻

古尔曼:苹果仍计划推出带有微型摄像头的 AirPods

亲子要闻

周末带孩子去市区,逛超市吃汉堡,吃得开心