网易首页 > 网易号 > 正文 申请入驻

阿里开源全模态模型!能识别喜怒哀乐,还给出详细推理过程

0
分享至


智东西
作者 程茜
编辑 心缘

智东西3月12日报道,昨日,阿里通义实验室开源R1-Omni模型——业界首个将具有可验证奖励的强化学习(RLVR)应用于全能多模态大语言模型

研究人员利用RLVR对开源Omni模型HumanOmni-0.5B进行优化,在推理能力、情感识别准确性和泛化能力三个关键方面显著提高了其性能。


R1-Omni能够更清楚地理解视觉和听觉信息如何促进情绪识别,能够明确展示哪些模态信息对特定情绪的判断起到了关键作用。与SFT(传统监督微调)相比,RLVR显著提高了情绪识别任务的性能,在同分布测试集(DFEW和MAFW)上,R1-Omni相较于原始基线模型平均提升超过35%,相较于SFT模型在UAR上的提升超10%。

‌RLVR是DeepSeek项目中的一种强化学习方法,其核心思想是利用验证函数直接评估输出,无需依赖单独的奖励模型‌‌。此前,RLVR研究多聚焦于图像、文本等多模态任务重,尚未涉足更复杂的全模态场景。

阿里通义团队选择开源Omni模型HumanOmni-0.5B作为基础模型,目前已经开源了基本模型HumanOmni-0.5B、冷启动模型EMER-SFT、直接在MAFW和DFEW训练集上微调的模型MAFW-DFEW-SFT,以及最终模型R1-Omni

论文:https://arxiv.org/abs/2503.05379

Github:https://github.com/HumanMLLM/R1-Omni

模型:https://www.modelscope.cn/models/iic/R1-Omni-0.5B

一、充分理解音视频,给出模态信息与特定情绪对应关系

R1-Omni的一大亮点在于其透明性(推理能力)通过RLVR方法,模型可以充分理解音频信息和视频信息并判断人物的情绪,论文中给出了下面两个示例:

指令:作为情绪识别专家,在整个视频中角色传达的哪种情感对你来说最明显?将思考过程输出到中,将最终的情感输出到中。

HumanOmni-0.5B:恐惧

EMER-SFT:在视频中,一名身穿棕色夹克的男子站在一幅充满活力的壁画前,他的脸上明显流露出愤怒的迹象。他皱起的眉毛和张开的嘴巴表达了他的不满。从他的表情和发声特征可以推断出他正在经历情绪动荡。音频内容提到了“恐惧”和“降低声音”,暗示他正面临紧急情况或在情绪紧张的时刻表现出强烈的情绪。总体而言,分析表明该男子正在经历一种深深的害怕和焦虑感。

MAFW-DFEW-SFT:生气

R1-Omni:在视频中,一个穿着棕色夹克的男人站在一幅充满活力的壁画前。他棕色夹克下面穿着一件粉红色的衬衫,头发又黑又卷。他的面部表情复杂,睁大眼睛,微微张开嘴巴,眉毛上扬,眉头紧皱,透露出惊讶和愤怒。语音识别技术表明,他的声音中包含“你”、“降低你的声音”、“freaking out”等词,表明情绪强烈和激动。总体而言,他表现出困惑、愤怒和兴奋的情绪状态。

//oss.zhidx.com/uploads/2025/03/67d0fc1ac48ce_67d0fc1abf02d_67d0fc1abeff2_ScreenRecording_03-12-2025-10-58-54_1.mp4

指令:作为情绪识别专家,在整个视频中角色传达的哪种情感对你来说最明显?将思考过程输出到中,将最终的情感输出到中。

HumanOmni-0.5B:快乐

EMER-SFT:在视频中,我们看到一名女性在室内环境中,似乎是个人空间或自习室。她戴着红色头带,白色上衣外面套着米色西装外套,头发整齐地扎在后面。她的面部表情流露出些许困惑和惊讶,仿佛遇到了什么意想不到的事情。随着时间的推移,她的情绪似乎平静了下来,但具体原因并没有解释。在音频中,“but”和“it was”之间有一段长时间的沉默,表明了犹豫和不确定。在文本中,副标题写道:“但这很有趣。这句话可能表达了这个人的困惑和惊讶。根据女子略带困惑和惊讶表情的视频线索,以及她整体的外表和面部表情呈现出轻微的困惑和惊讶,我们可以推断出这句话可能带有犹豫或不定的语气。此外,描述“but”和“it was”之间长时间沉默的音频线索也表明了一些犹豫和不确定性。因此,这句话表达了女人对某事的兴趣和好奇,而also则表现出一定程度的犹豫和不确定。

MAFW-DFEW-SFT:快乐

R1-Omni:在视频的开场场景中,我们看到一个女人微微闭着眼睛,嘴巴慢慢张开,仿佛她正在预示。她的面部表情看起来有些喜悦,这可能表明她在那一刻正在经历一些愉快或有趣的情况。在音频中,句子之间没有停顿,它们连续流动,语气轻盈欢快。结合文字内容,可以感觉到角色处于非常快乐和积极的情绪状态。在文本中,副标题写道:“这很有趣。这句话可能表达了女人对某事或某人的满意和好奇。根据视频线索中女子所表现出的笑声和喜悦的表情,以及音频线索中对连续流淌、轻盈欢快的语气的描述,我们可以推断出这句话表达了女子对某事的兴趣和好奇。这句话中的喜悦与幸福和积极的整体表现是一致的。

//oss.zhidx.com/uploads/2025/03/67d0fc1f1d04d_67d0fc1f173fa_67d0fc1f173d5_ScreenRecording_03-12-2025-11.mp4

二、推理、情感识别、泛化能力提升,相较原始基线模型平均提升超35%

研究人员利用RLVR对Omni模型进行优化后,模型在推理能力、情感识别准确性和泛化能力三个关键方面提高了性能。

首先,最初的HumanOmni-0.5B和MAFW-DFEW-SFT模型表现出有限的推理能力。EMER-SFT的推理过程连贯性相对较差,容易产生幻觉。例如,在MAFW和DFEW数据集上进行测试时,R1-Omni通过提供更连贯、更准确和可解释的推理过程,始终优于这些基线。

其次,为了定量评估R1-Omni的理解能力,研究人员将其性能与主要由电影剪辑组成的MAFW和DFEW数据集上的其他模型进行了比较。用于评估的指标是未加权平均召回率(UAR)和加权平均召回率(WAR),它们衡量模型对不同类别的情绪进行准确分类的能力。

在此设置中,模型没有提供预定义的情感类别,而是直接从输入数据生成情感标签。

实验结果显示,在同分布测试集(DFEW和MAFW)上,R1-Omni相较于原始基线模型平均提升超过35%,相较于SFT模型在UAR上的提升高达10%以上。在不同分布测试集(RAVDESS)上,R1-Omni在WAR和UAR均提升超过13%。


更直观的比较如下:


最后是R1-Omni的泛化能力,研究人员在RAVDESS数据集上进行实验,该数据集用作分布外(OOD)测试集,RAVDESS数据集的特点是专业演员以中性的北美口音说出词汇匹配的陈述。数据分布的这种显著差异使RAVDESS成为评估模型泛化到看不见场景的能力的理想基准。

三、冷启动+RLVR训练阶段,提升模型情绪识别准确度

模型训练包括两个阶段。

第一个是冷启动阶段,为了保证RLVR阶段训练的平稳性,该团队使用一个组合数据集进行微调,使其初步掌握多模态情感识别任务中的推理能力。该组合数据集是由580条视频数据组成的组合数据集,其中包括来自Explainable Multimodal Emotion Reasoning(EMER)数据集的232条样本,以及来自HumanOmni数据集的348条样本。

这一阶段确保了模型在进入RLVR阶段前已具备一定基础能力,从而提升后续训练的效率与稳定性。

冷启动阶段使用的EMER数据的具体格式如下所示。


第二个是RLVR阶段,实现推理与泛化能力双重提升,这一训练过程旨在优化HumanOmni-0.5B使用包括视频和音频数据的多模态输入进行情绪识别任务。

基于冷启动阶段初始化的模型,通过RLVR的方式训练,同时利用视频和音频的多模态数据优化情感识别任务。该阶段通过强化学习与可验证奖励机制,进一步优化模型的推理能力和泛化性能。

RLVR的第一个关键组件是策略模型(policy model),该模型处理由视频帧和相应音频流组成的多模态输入数据,并生成一组候选响应。每个响应都附带详细的推理,展示了模型如何整合视觉和听觉信息从而得出预测的详细过程。

第二个关键组件是奖励函数,策略模型生成的这些候选响应使用可验证的奖励函数(reward function)进行评估。RLVR训练框架中用到的奖励函数受DeepSeek-R1的启发,将奖励分成了两个部分,精确率奖励(accuracy reward)和格式奖励(format reward),这两部分共同形成最终的奖励R:


准确值奖励的计算方式如下:


通过联合两部分奖励,该奖励函数不仅鼓励模型生成正确的预测,同时保证输出是结构化的,并且和其预设格式一致。

实验表明,RLVR不仅让音频和视频信息的作用更加透明,还显著提升了模型在情绪识别任务中的关键指标。

四、仍有局限,字幕识别不准、幻觉、语调线索利用率低

R1-Omni仍存在一些需要进一步研究的局限性,论文中提到了三个具有代表性的示例:

第一个例子中,尽管模型产生了正确的情绪预测,但其字幕识别并不准确,解决这一限制需要集成更强大的字幕处理技术,例如对专业数据集进行微调或整合高级自然语言理解模型。


第二个示例演示了一个常见的问题幻觉,模型生成的推理输出不基于视频的实际内容。例如,“画外音揭示了她中立的最初反应,随着时间的推移逐渐变成轻微的兴奋和愤怒”这句话与视频的实际情绪轨迹不一致。这种捏造的推理导致模型错误地将情绪预测为惊喜。


第三个示例强调了该模型充分利用音频线索(如语气和语调)的能力有限,而音频线索对于准确的情绪识别至关重要。尽管模型能够通过整合音频和视频信息来推理情绪,但在某些情况下,音频特征的使用似乎不如使用视觉线索彻底或有效。在这个特定实例中,角色的声音传递提供了强烈的情感信号,但该模型未能将这些细微差别充分纳入其推理过程。


结语:RLVR加速多模态任务研究

RLVR方法的出现,为多模态任务提供了全新的优化思路,无论是几何推理、视觉计数,还是经典图像分类和物体检测任务,RLVR都展现出了显著优于传统监督微调(SFT)的效果。

基于当下研究的局限,研究人员在论文中提到了未来几个研究方向:

1、加强基础模型的能力。虽然RLVR显著增强了基础模型的推理和泛化能力,但基础模型的固有性能仍然是整体成功的关键决定因素。

2、减轻推理输出中的幻觉。由于多模态数据固有的挑战,例如视频和音频令牌中的因果关系比文本Token弱,以及缺乏对推理内容的明确监督,在模型的推理过程中可能会出现幻觉。开发检测和减轻幻觉的机制对于提高模型的可靠性和可用性至关重要。

3、提高音频线索的利用率。例如音调和语调等的利用率不足代表了当前模型的局限性,未来的工作应侧重于提高模型有效提取和集成音频特征的能力。

4、提高推理深度和情商。目前的推理过程往往有些机械化,主要关注直接可观察的特征,如视觉线索和音频信号。而人类的情感识别通常涉及更深层次的心理学洞察力,例如了解个人的动机、意图或内部状态。通过引导模型探索推理的更细微的方面,例如推断心理活动或情绪驱动因素,可以提升其情商并增强其捕捉复杂情绪动态的能力。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
胡兵去泰国看瞿颖,坐10个小时头等舱豪华大巴,颖姐清迈豪宅曝光

胡兵去泰国看瞿颖,坐10个小时头等舱豪华大巴,颖姐清迈豪宅曝光

阿凫爱吐槽
2025-03-11 08:48:51
王毅刚定调中国台湾地区,台岛用新名字参加大阪世博会,信号强烈

王毅刚定调中国台湾地区,台岛用新名字参加大阪世博会,信号强烈

先锋苍穹
2025-03-15 20:55:23
双春闰年不上坟,上坟祸事要临门,2025清明节真的不能上坟扫墓吗

双春闰年不上坟,上坟祸事要临门,2025清明节真的不能上坟扫墓吗

书中自有颜如玉
2025-03-15 00:28:32
内地至今未婚的5位著名女演员,个个都是半老徐娘,男人“杀手”

内地至今未婚的5位著名女演员,个个都是半老徐娘,男人“杀手”

顾蔡卫
2025-03-14 17:47:12
金赛纶酒驾出庭的这组照片可以说是封神了,冷白皮气质清冷高级

金赛纶酒驾出庭的这组照片可以说是封神了,冷白皮气质清冷高级

西瓜爱娱娱
2025-03-15 10:20:37
万炮齐轰特朗普!他活在信息茧房,谎言累次被揭,再制造新的谎言

万炮齐轰特朗普!他活在信息茧房,谎言累次被揭,再制造新的谎言

大风文字
2025-03-15 08:29:40
神奇的基因!谢浩南在没和谢爸正式见面前,两个问题认定了儿子!

神奇的基因!谢浩南在没和谢爸正式见面前,两个问题认定了儿子!

墙头草
2025-03-15 08:13:42
团灭!315曝光名单惊心动魄,这些记者究竟卧底了多长时间?

团灭!315曝光名单惊心动魄,这些记者究竟卧底了多长时间?

垛垛糖
2025-03-15 22:28:18
震惊!葛斯齐爆料命理师预测要注意小S近半年,结果会出人意料!

震惊!葛斯齐爆料命理师预测要注意小S近半年,结果会出人意料!

美食阿鳕
2025-03-16 01:48:42
养坏一个孩子最快的方法,就是纵容他做以下3件事,父母别不在意

养坏一个孩子最快的方法,就是纵容他做以下3件事,父母别不在意

JoJo妈育儿
2025-03-12 20:30:03
涉及一次性内裤、家电维修、增重虾仁……今年的315晚会曝光了这些问题→

涉及一次性内裤、家电维修、增重虾仁……今年的315晚会曝光了这些问题→

第一财经资讯
2025-03-15 23:06:51
姆巴佩:即使我进球远超大罗&C罗 也不意味着我更强 数据只是数字

姆巴佩:即使我进球远超大罗&C罗 也不意味着我更强 数据只是数字

直播吧
2025-03-16 04:47:10
自由点高管回应“3·15点名”:与梁山希希公司无业务往来

自由点高管回应“3·15点名”:与梁山希希公司无业务往来

南方都市报
2025-03-15 21:38:07
“一天流水20亿”,央视315曝光手机抽奖疯狂敛财,涉事兑吧集团去年上半年亏损近2000万

“一天流水20亿”,央视315曝光手机抽奖疯狂敛财,涉事兑吧集团去年上半年亏损近2000万

红星新闻
2025-03-15 23:17:05
10大强队1夜狂飙,掘金重回第2,快船升至第4,湖人跌出前4!

10大强队1夜狂飙,掘金重回第2,快船升至第4,湖人跌出前4!

智凌纵横
2025-03-16 00:13:59
1-2!4-4!西甲榜首大战:巴萨2场不胜马竞,皇马3分领跑争冠乱了

1-2!4-4!西甲榜首大战:巴萨2场不胜马竞,皇马3分领跑争冠乱了

体育知多少
2025-03-16 10:06:54
杜兰特+哈登+威少!昔日雷霆三少全部解锁26000⚡️

杜兰特+哈登+威少!昔日雷霆三少全部解锁26000⚡️

直播吧
2025-03-16 10:06:17
男女合租会不会擦出火花?网友:该看的,不该看的,都看过了

男女合租会不会擦出火花?网友:该看的,不该看的,都看过了

美好客栈大掌柜
2025-03-10 00:15:02
元斌为了10岁的金赛纶终生戒烟!第一个赶到灵堂 网泪:最疼她的大叔

元斌为了10岁的金赛纶终生戒烟!第一个赶到灵堂 网泪:最疼她的大叔

ETtoday星光云
2025-03-13 15:19:08
全棉时代母公司稳健医疗收深交所关注函

全棉时代母公司稳健医疗收深交所关注函

界面新闻
2025-03-16 07:57:58
2025-03-16 10:35:00
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
9581文章数 116724关注度
往期回顾 全部

科技要闻

百度发布文心大模型4.5及X1,免费体验

头条要闻

多名男子和"刘佳"恋爱买房 女方还给部分"男友"付首付

体育要闻

34岁的意甲队魂,一个天生的喜剧人

娱乐要闻

最早曝金秀贤恋爱的记者已去世

财经要闻

多家上市公司遭315晚会点名 交易所问询

汽车要闻

高阶智驾+豪华大六座 昊铂HL让全家开着都放心

态度原创

家居
本地
健康
手机
公开课

家居要闻

随遇而安 温馨空间感

本地新闻

用AI唤醒花花世界|美到“开挂”,来哈尔滨感受春天吧

痛经?不孕不育?妇科问题不再忧心

手机要闻

OPPO A5/A5活力版手机官宣3月18日发布,全系标配满级防水

公开课

李玫瑾:为什么性格比能力更重要?