网易首页 > 网易号 > 正文 申请入驻

零成本突破多模态大模型瓶颈!多所美国顶尖高校华人团队,联合推出自增强技术CSR

0
分享至


新智元报道

编辑:LRST

【新智元导读】现有多模态大模型在对齐不同模态时面临幻觉和细粒度感知不足等问题,传统偏好学习方法依赖可能不适配的外源数据,存在成本和质量问题。Calibrated Self-Rewarding(CSR)框架通过自我增强学习,利用模型自身输出构造更可靠的偏好数据,结合视觉约束提高学习效率和准确性。

多模态大模型展现出了多种多样的能力,这些能力都通过SFT和预训练从庞大的训练数据集中学习。

但是模态之间的简单对齐可能会使得模型存在幻觉,细粒度图像感知能力差等各种问题。

已有的多模态大模型对齐方案一般采用DPO,POVID等偏好优化方法,或是蒸馏 GPT-4等昂贵闭源模型的方式来提升模型能力。

这些方法大多需要外源模型数据,这些数据构造存在很多问题,一是需要昂贵的价格,二是缺乏质量和多样性的保证。

再者说,这真的适合需要提升模型本身的分布偏好吗?

在Calibrated Self-Rewarding Vision Language Models文中,通过模型自身输出概率证明了,外来模型构造的偏好数据可能不适合用于模型的偏好学习,相较于模型自身的response,外源模型所构造的数据模型自己说出的概率很小,简单来说对于偏好数据中的负样本模型并不会犯一样的错误,对于偏好数据中的正样本模型也不会讲出那么好的response。

这种偏好数据用于偏好学习可能会引入模型自身分布的偏差导致其他错误,同时因为模型自身说同样话的概率低,用这样的数据来偏好学习增强模型收益很小。


同时传统纯文本大模型领域的Self-rewarding范式存在一定缺陷。


在此前self rewarding提供reward的模型是模型自身,当模型自身无法准确分辨偏好、所具有的知识不够强大的时候,它所提供的反馈可能不够精准或者没用导致所更新的模型的分布无法向着目标分布更新。

为了解决上述问题,来自UNC ,芝加哥大学,UMD和罗格斯大学的研究团队提出了Calibrated Self-Rewarding(CSR),多模态大模型的自我增强因为会存在一个真实图像的参照,这会使得self-rewarding的过程更加可靠。


论文地址: https://arxiv.org/pdf/2405.14622

项目地址:https://github.com/YiyangZhou/CSR

项目页面:https://dongjie-cheng.github.io/CSR.html

整个Calibrated Self-Rewarding(CSR)框架如下:


1. 通过模型本身在beam search过程中的输出构造偏好数据对,过程中的奖励来自于校准的自我奖励:LVLM对于每句话的自我生成概率 + 结合视觉约束奖励,用于奖励校准。

2. 基于每一轮构造的偏好数据在线通过DPO迭代学习。

实验

CSR相较于数据驱动的偏好学习对齐方法和模型自我反馈的方法均有较大提升。


更值得注意的是,在CSR多轮在线迭代过程中,模型能逐步提升自我能力!可以看到在多个轮次中以LLaVA-1.5为例,模型在多个benchmark上的均分逐步提升。


同时也可以看到特别是幻觉,在多轮迭代中是逐步减少的:


同时CSR也适用于其他模型,例如Vila:


那么在Calibrated Self-Rewarding(CSR)的过程中究竟发生了什么呢?通过可视化经过CSR迭代前后模型自身的正样本和负样本输出可以发现,经过多轮CSR学习后,模型自身说出的回复会有更高的分数:这代表模型的response更加符合图像信息;同时负样本和正样本的gap更小:这说明模型所输出的负样本倾向于正样本,模型的误差和性能下界提升。


通过可视化attention可以看到,CSR能使得LVLM更加偏重于视觉模型,同时能缓解文本attention中存在的上下文依赖问题。


参考资料:

https://arxiv.org/pdf/2405.14622


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
余琦的处罚来了,丈夫身份被扒,就连家里的狗也受到牵连

余琦的处罚来了,丈夫身份被扒,就连家里的狗也受到牵连

椰青美食分享
2024-06-26 15:49:35
你见过最主动的女生是什么样的?网友们也太会了!

你见过最主动的女生是什么样的?网友们也太会了!

滑稽斑马呀
2024-06-18 18:38:21
歌手茜拉自曝儿子患自闭症,5岁只会说几句话,已送去读特殊学校

歌手茜拉自曝儿子患自闭症,5岁只会说几句话,已送去读特殊学校

青芳草
2024-06-27 12:13:11
日本人苏州遇袭后续:持刀男子身份被扒,冲突原因疑似曝光了

日本人苏州遇袭后续:持刀男子身份被扒,冲突原因疑似曝光了

海豚女王
2024-06-27 12:01:10
成都楼市全军覆没,成都高新区金融城房价从40000降至39000元

成都楼市全军覆没,成都高新区金融城房价从40000降至39000元

有事问彭叔
2024-06-25 16:25:37
公愤!俞莉事件之后,南医大留学生又惹事,这次学校真的救不了了

公愤!俞莉事件之后,南医大留学生又惹事,这次学校真的救不了了

十三级台阶
2024-06-27 07:28:55
高考语文满分诞生!这位考生语文150分,创造历史!

高考语文满分诞生!这位考生语文150分,创造历史!

教育导向分享
2024-06-26 21:24:26
英格兰队变天!福登紧急离队!贝林厄姆松口气,25球15助巨星上位

英格兰队变天!福登紧急离队!贝林厄姆松口气,25球15助巨星上位

阿泰希特
2024-06-27 10:23:00
92岁台湾老兵回重庆寻亲,下飞机后却怒斥子女:这不还是台北

92岁台湾老兵回重庆寻亲,下飞机后却怒斥子女:这不还是台北

赢梯
2024-06-27 09:00:13
周华健混血儿子晒写真,34岁周厚安成熟有型,打喷嚏受伤自嘲老了

周华健混血儿子晒写真,34岁周厚安成熟有型,打喷嚏受伤自嘲老了

娱絮
2024-06-27 09:47:37
王宝强获奖:黄渤表情耐人寻味,台下谁是真兄弟一目了然

王宝强获奖:黄渤表情耐人寻味,台下谁是真兄弟一目了然

娱乐白名单
2024-06-26 14:17:22
网传iPhone不戴壳是“富人新标识”:pass掉99%苹果用户

网传iPhone不戴壳是“富人新标识”:pass掉99%苹果用户

手机中国
2024-06-25 11:25:07
2024全国高考600分以上排名,浙江遥遥领先,状元花落哪省?

2024全国高考600分以上排名,浙江遥遥领先,状元花落哪省?

糖逗在娱乐
2024-06-27 13:55:29
职称倒查拉开序幕!审查年限见前所未见,六年之前的照样查!

职称倒查拉开序幕!审查年限见前所未见,六年之前的照样查!

猫小狸同学
2024-05-06 20:20:07
世界上争议最大的河流:长300公里宽200公里,很难定义是河还是海

世界上争议最大的河流:长300公里宽200公里,很难定义是河还是海

博览历史
2024-06-26 15:35:24
女清洁工掉进压缩箱失联近2个月,恐性命不保,司机摊上大事了

女清洁工掉进压缩箱失联近2个月,恐性命不保,司机摊上大事了

180°视角
2024-06-27 16:02:32
北京楼市全军覆没,北京楼市整体房价从88000元降至83000元

北京楼市全军覆没,北京楼市整体房价从88000元降至83000元

有事问彭叔
2024-06-24 22:45:31
盲目排外,再生祸端

盲目排外,再生祸端

黑噪音
2024-06-26 21:59:15
出事了!天津某万达广场突发!市民紧急撤离!

出事了!天津某万达广场突发!市民紧急撤离!

天津族
2024-06-27 07:37:39
李斌展示蔚来交车前的淋雨测试:不漏一滴水才能交付

李斌展示蔚来交车前的淋雨测试:不漏一滴水才能交付

手机中国
2024-06-26 17:14:06
2024-06-27 16:58:44
新智元
新智元
AI产业主平台领航智能+时代
11205文章数 65539关注度
往期回顾 全部

科技要闻

朱啸虎:5年后将没有独立的大模型公司存在

头条要闻

上海小伙5年花20多万收藏手办:有手办没到货就涨3倍

头条要闻

上海小伙5年花20多万收藏手办:有手办没到货就涨3倍

体育要闻

和布朗尼一样菜的人,咋进NBA?

娱乐要闻

李雪琴北大学历情况被扒,牵扯多人

财经要闻

曹远征:不能被"产能过剩"的概念所困惑

汽车要闻

32万公里实车直播拆解 极氪凭事实证明实力!

态度原创

房产
旅游
亲子
数码
军事航空

房产要闻

大动作来了!丁村城市更新征收补偿方案曝光!

旅游要闻

香港迪士尼连亏八年后复苏,涨价争内地客

亲子要闻

自闭症家长的三大常见误区,你中招了吗?

数码要闻

绿联推出超薄饼干款氮化镓充电器:1.45cm 厚 / 65W 功率,179 元

军事要闻

玻利维亚前陆军总司令因发动军事政变被捕

无障碍浏览 进入关怀版