想纠正LMM犯错？没用！NUS华人团队：最强o1反馈修正率不到50%|样本|实验|云计算费用

想纠正LMM犯错？没用！NUS华人团队：最强o1反馈修正率不到50%

2025-03-16 11:32:20　来源: 新智元

北京举报

分享至

新智元报道

编辑：英智

【新智元导读】LMM在人类反馈下表现如何？新加坡国立大学华人团队提出InterFeedback框架，结果显示，最先进的LMM通过人类反馈纠正结果的比例不到50%！

大规模多模态模型（Large Multimodal Models，LMM）在人类反馈下的表现如何？

这一问题对于利用LMM开发通用AI助手至关重要，现有的基准测试并未针对LMM与人类的交互智能进行测试。

来自新加坡国立大学的华人团队提出了InterFeedback，一个可应用任何LMM和数据集的交互式框架。

论文链接：https://arxiv.org/abs/2502.15027

在此基础上，团队引入了InterFeedback-Bench，用两个具有代表性的数据集（MMMU-Pro和MathVerse）来评估交互智能，并对10种不同的LMM进行测试。

InterFeedback-Bench旨在全面评估LMM：

1）交互式解决问题的能力；

2）解释反馈以提升自身的能力。

评估结果表明，最先进的LMM通过人类反馈纠正结果的比例不到50%！

交互式过程可提升大多数LMM解决难题的性能，现有LMM在解释和整合反馈方面表现欠佳。进行额外迭代不一定能得出正确的解决方案，高质量反馈至关重要。

人类在解决问题时，具有很强的适应性，能够从反馈中不断学习完善。同样，先进的LMM也应该能从反馈中学习，提高解决问题的能力。

评估LMM交互智能的关键挑战在于自动模型测试，不同模型对相同查询的响应不同，需要人类在每个对话轮次中提供定制化反馈。

InterFeedback框架设计原理

研究人员提出了InterFeedback，这是一个基于交互式问题解决的框架，通过GPT-4o等模型模拟人类反馈，让LMM在动态的交互环境中进行测试和学习。

InterFeedback-Bench将带有反馈的交互式问题解决过程，变成了一种数学模型，叫部分可观测马尔可夫决策过程（POMDP）。

通过状态空间、观测值、动作空间、转移函数和奖励函数等要素，精确地描述模型在交互过程中的行为和决策。

在实际应用中，当给定自然语言问题和输入图像时，模型基于当前状态获取观测值，生成自然语言回复。奖励函数通过精确匹配的方式判断任务的正确性，为模型提供反馈信号。

数据集构建

InterFeedback-Bench采用了两个有挑战性的数据集：MathVerse和MMMU-Pro。

MathVerse是一个视觉数学问题数据集，其中包含了各种需要结合图像和数学知识才能解决的问题。

MMMU-Pro则是综合性的多模态基准测试，涵盖了多个领域的专家级问题，包括科学、技术、工程和数学等。

通过巧妙地利用LMM（例如GPT-4o）来模拟人机交互，构建出具有针对性的测试数据集。

具体而言，通过选择反馈提供模型M_p答对，而反馈接收模型M_r答错的交集，确保反馈的相关性和可靠性。

InterFeedback框架

InterFeedback框架有两个角色：反馈接收者M_r和反馈提供者M_p。

M_r是准备接受基准测试的LMM，如Qwen2-VL，M_p是当前最优的LMM，如GPT-4o，用于在每个时间步代替人类提供反馈。

当M_r模型生成输出后，M_p会根据映射策略提供反馈，模型则根据反馈进行改进，如此循环，直到得到正确答案或达到预设的迭代次数。

在这个过程中，M_r根据当前的状态和观测信息，生成相应的动作。M_p则根据模型的回答，提供反馈信息，帮助模型改进自己的回答。

基于InterFeedback框架，团队构建了InterFeedback-Bench基准测试。这个基准测试旨在全面评估LMM交互式问题解决和反馈学习的能力。

人类评估基准测试

除了自动基准测试，研究团队还收集了InterFeedback-Human数据集，用于人工评估闭源模型。

与自动基准测试不同，InterFeedback-Human数据集的评估过程更注重人类的参与和反馈。用户根据模型的回答，提供详细的反馈信息，包括问题的分析、正确的思路和答案等。

通过这种方式，可以更深入地了解模型在实际人机交互中的表现，以及它们理解和处理人类反馈的能力。

实验结果与分析

研究人员设计了一系列实验，在MathVerse和MMMU-Pro两个具有代表性的数据集上，对多个开源LMM进行了全面评估。

用准确率和纠错率来评估结果，纠错率定义为所有错误样本中被纠正答案的样本所占的百分比。N表示样本总数，N_e表示错误样本的数量，N_c表示已被纠正的样本数量。

准确率和纠错率可以用以下公式表示：

交互过程能提高性能

实验结果表明，交互式过程对大多数LMM的性能提升有显著的促进作用。

InterFeedback框架能使大多数模型从GPT-4o和Claude-3.5-Sonnet等提供的反馈中受益。

例如，即使是性能较弱的Fuyu-8B模型，通过GPT-4o的反馈也能纠正24.1%的错误样本。这表明交互过程可以有效提高大多数LMM解决问题的能力。

难以通过反馈提升性能

尽管有先进模型提供的反馈，但大多数LMM仍难以纠正所有错误样本。

以Qwen2-VL-7B和Molmo为例，Qwen2-VL-7B在MathVerse数据集上使用GPT-4o的反馈时，纠错率为66.8%，但在MMMU-Pro数据集上仅为50.4%。

Molmo-7B在MathVerse和MMMU-Pro数据集上的纠错率分别为55.1%和51.7%，其余模型的纠错率普遍低于50%。

即使有LMM提供的反馈，当前的模型在通过反馈提升自身性能方面仍存在较大困难。

准确率可能无法反映模型能力

实验发现，准确率可能无法真实、全面地反映模型的实际能力。

例如，InternVL2-8B的准确率较高（38.1%），但其纠错率仅为49.6%。而准确率较低（22.5%）的Qwen2-VL-7B在使用GPT-4o的反馈时，却达到了最高的纠错率66.8%。

在MMMU-Pro数据集上也有类似情况，LLaVA-OneVision-7B的准确率排名第二（47.1%），但其纠错率仅为 31.7%，低于几个准确率较低的模型。

这表明仅通过准确率评估模型，可能无法全面体现其真实能力。

反馈质量至关重要

令人惊讶的是，所有模型都能从简单的二元（0/1）反馈中受益。

同时，研究发现反馈质量至关重要，低质量反馈对性能的损害比简单的二元反馈更大。

在MathVerse数据集上，对于一些模型，使用次优模型（Gemini-1.5-Flash）提供的简单二元反馈，其效果优于LMM生成的详细反馈。

人工基准测试的分析

在对OpenAI-o1、GPT-4o、Gemini-2.0和Claude-3.5-Sonnet等闭源模型的人工评估中，Claude-3.5的平均准确率最高，达到了48.3%。

从纠正率结果分析来看，不同模型从人类反馈中获益的轮次和程度存在明显差异。

GPT-4o在第一轮反馈中能够纠正41.9%的错误样本，显示出其对人类反馈的快速响应和学习能力。

Claude-3.5则在第二轮反馈中展现出强大的纠正性能，成功纠正了30.6%的错误样本。在第三轮，由于提供了真实答案，所有LMM都能够给出选择正确答案的推理步骤。

此外，不同任务类别中被纠正样本的分布也有所不同。

视觉逻辑任务大多在前两轮就能够得到有效解决，而纯文本数学任务和MMMU-Pro任务在前两轮的纠正相对较少。

相比之下，纯文本编码任务和MathVerse任务在前两轮也出现了一定比例的纠正，说明模型在这些领域具有一定的学习和改进能力。

参考资料：

https://huggingface.co/papers/2502.15027

https://arxiv.org/pdf/2502.15027

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

想纠正LMM犯错？没用！NUS华人团队：最强o1反馈修正率不到50%

美股“AI八巨头”单周市值损失8000亿美元

就两岸关系 郑丽文、马英九最新表态

就两岸关系 郑丽文、马英九最新表态

是天才更是强者，18岁的全红婵迈过三道坎

王家卫的“看人下菜碟”?

小马、文远回港上市 但自动驾驶还没赢家

美式豪华就是舒适省心 林肯航海家场地试驾

态度原创

Eric Drummond：加拿大90后年轻画家

现代自由 功能美学居所

一罐麦片，两条人命，双一流大学研究生伏法，背后的真相是什么？

主机御三家被塞进一个盒子！B站UP打造三合一神器

就两岸关系郑丽文、马英九最新表态

就两岸关系郑丽文、马英九最新表态

小马、文远回港上市但自动驾驶还没赢家

美式豪华就是舒适省心林肯航海家场地试驾

现代自由功能美学居所