网易首页 > 网易号 > 正文 申请入驻

幻觉不一定有害,新框架用AI的「幻觉」优化图像分割技术

0
分享至

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

作者胡健,是伦敦大学玛丽女王学院的博士生,导师是龚少刚教授,这篇文章是在龚少刚教授和严骏驰教授的指导下完成的。

在人工智能领域,大型预训练模型(如 GPT 和 LLaVA)的 “幻觉” 现象常被视为一个难以克服的挑战,尤其是在执行精确任务如图像分割时。然而,最新发表于 NeurIPS 2024 的研究《Leveraging Hallucinations to Reduce Manual Prompt Dependency in Promptable Segmentation》提出了一个有趣的观点:这些幻觉实际上可以被转化为有用的信息源,从而减少对手动提示的依赖。

  • 文章链接:https://arxiv.org/abs/2408.15205
  • 代码链接:https://github.com/lwpyh/ProMaC_code
  • 项目网址:https://lwpyh.github.io/ProMaC/

这项研究由来自伦敦大学玛丽女王学院和上海交通大学的研究团队进行的,他们开发了名为 ProMaC 的框架,该框架创新性地利用了大模型在预训练过程中产生的幻觉。不仅能够准确识别图像中的目标对象,还能判断这些对象的具体位置和形状,这在伪装动物检测或医学图像分割等复杂任务中表现尤为出色。

研究动机

该研究专注于一种具有挑战性的任务:通用提示分割任务(task-generic promptable segmentation setting)。在这个框架下,该研究只提供一个任务内的通用提示来描述整个任务,而不会具体指明每张图片中需要分割的具体物体。例如,在伪装动物分割任务中,该研究仅提供 “camouflaged animal” 这样的任务描述,而不会告知不同图片中具体的动物名称。模型需要完成两项主要任务:首先,根据图片内容有效推理出具体需要分割的目标物体;其次,准确确定目标物体的具体位置和分割的形状。

尽管如 SAM 这类大型分割模型的存在,能够在提供较为精确的位置描述时有效地进行物体分割,但在伪装样本分割或医学图像分割等复杂任务中,获取这种精确描述并不容易。以往的研究,如 GenSAM [1],提出利用 LLaVA/BLIP2 这类多模态大模型(MLLMs)来推理出特定样本的分割提示,以指导分割过程。然而,这种方法在处理像伪装样本分割这样的场景时,往往因为目标共现偏差(object co-occasion bias)存在而导致问题。例如,在一个只有草原的图像中,如果训练数据中狮子通常与草原共现,LLaVA 可能会偏向于预测草原中存在伪装的狮子,即使图中实际上没有狮子。这种假设的偏好在伪装动物分割任务中尤其问题严重,因为它可能导致模型错误地识别出不存在的伪装动物。

图 1. co-occurrence prior 导致的 hallucination

但是这样的现象就一定是坏事吗?其实并不尽然。考虑到猎豹确实常出没于此类草原,尽管在特定图片中它们可能并未出现。这种所谓的 “幻觉”,其实是模型根据大规模数据训练得出的经验性常识。虽然这种推断与当前的例子不符,但它确实反映了现实世界中的常态。更进一步地说,这种由幻觉带来的常识可能有助于更深入地分析图片内容,发现与图片相关但不显而易见的信息。如果这些信息得到验证,它们可能有助于更有效地执行下游任务。

图 2. ProMaC 整体架构

实现方法

如图 2 所示,该研究提出了一个循环优化的 ProMaC 框架,它包括两部分:利用幻觉来从任务通用提示中推理出样本特有提示的 multi-scale chain of thought prompting 模块和将生成的掩码与任务语义相对齐的 mask semantic alignment 模块。前者推断出较为准确的样本特有提示来引导 SAM 进行分割,后者则将生成的掩码与任务语义进行对齐,对齐后的掩码又可以作为提示反向作用于第一个模块来验证利用幻觉得到的信息。通过循环优化来逐渐获得准确的掩码。

具体地,ProMaC框架如图 3 所示:

图 3. ProMaC 流程图

多尺度思维链提示

它主要完成两个任务:收集尽可能多的任务相关候选知识,并生成准确的样本特有提示。为此,该研究将输入图像切割成不同尺度的图像块,每个图像块中任务相关对象的不同可见性水平激发了 MLLM 的幻觉。这促使模型在各个图像块中通过先验知识探索图像数据与相关任务之间的联系,进而预测潜在的边界框和目标物体

但其中只有正确的信息才值得保留。为此,该研究引入了视觉对比推理(Visual Contrastive Reasoning)模块。该模块首先使用图像编辑技术创建对比图像,这些对比图像通过去除上一次迭代中识别到的掩码部分,生成只包含与任务无关背景的图片。接着,通过将原图的输出预测值与背景图片的输出预测值相减,可以消除由物体共存偏差带来的负面影响,从而确认真正有效的样本特有提示。具体表达式如下:

掩码语义对齐

获得的样本特有提示将被送入掩码生成器来产生准确的掩码。首先,样本特有提示被输入到分割模块(SAM)以生成一个掩码。然而,SAM 缺乏语义理解能力,它主要依据给定的提示及其周围的纹理来识别可能要分割的物体。因此,该研究采用了 CLIP 来评估相同提示在不同图像块上生成的各个掩码与目标物体之间的语义相似性。这种方法有助于确保分割结果的准确性和相关性:

归一化后的相似度用作权重,以加权合成最终的掩码。这个掩码在下一次迭代中有助于生成更优质的背景图片,进而引导更有效的提示生成。这能充分利用幻觉来提取图片中与任务相关的信息,验证后生成更准确的提示。这样,更好的提示又能改善掩码的质量,形成一个互相促进的提升过程。

该研究在具有挑战性的任务 (e.g., 伪装动物检测,医学图像检测) 上进行了实验:

图 4. 伪装样本检测实验结果

图 5. 医学图像实验结果

图 6. 可视化案例

PromaC 提供了一个新视角,即幻觉不一定就是有害的,如果能加以利用,也是能为下游任务提供帮助。

[1] Hu J, Lin J, Gong S, et al. Relax Image-Specific Prompt Requirement in SAM: A Single Generic Prompt for Segmenting Camouflaged Objects [C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2024, 38 (11): 12511-12518.

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
麦迪回忆自己被波波维奇批评:特雷西,你以为我在说俄语吗?

麦迪回忆自己被波波维奇批评:特雷西,你以为我在说俄语吗?

懂球帝
2026-06-04 02:05:14
就差3票!联合国大会主席选举爆冷:孟加拉国外长99比91险胜

就差3票!联合国大会主席选举爆冷:孟加拉国外长99比91险胜

阿离家居
2026-06-03 19:12:31
4次挑衅中国!乌克兰名将:俄罗斯又轰炸乌克兰 有人凌晨被炸去世

4次挑衅中国!乌克兰名将:俄罗斯又轰炸乌克兰 有人凌晨被炸去世

念洲
2026-06-03 08:34:58
上海首次发布中心城区雷电黄色预警,今夜明晨局部仍有大到暴雨

上海首次发布中心城区雷电黄色预警,今夜明晨局部仍有大到暴雨

上观新闻
2026-06-03 21:22:19
樊振东已到杜塞尔多夫训练!萨尔布吕肯经理:他的离开,我非常伤心!

樊振东已到杜塞尔多夫训练!萨尔布吕肯经理:他的离开,我非常伤心!

乒乓助手
2026-06-04 00:04:30
61岁大叔哭诉:再婚娶了40岁的女人,每天都过得筋疲力尽,太难了

61岁大叔哭诉:再婚娶了40岁的女人,每天都过得筋疲力尽,太难了

惟来
2026-06-02 10:25:22
国米不慌!邓弗里斯离队一箭三雕,荷兰泥头车改换意大利超跑!

国米不慌!邓弗里斯离队一箭三雕,荷兰泥头车改换意大利超跑!

肥强侃球
2026-06-03 23:47:50
7年败光2个亿,邹市明冉莹颖共同发文,终究还是踏出了这一步

7年败光2个亿,邹市明冉莹颖共同发文,终究还是踏出了这一步

林轻吟
2026-02-11 11:29:40
25岁女生斥巨资县城开全女酒吧,还和网友对赌多久倒闭

25岁女生斥巨资县城开全女酒吧,还和网友对赌多久倒闭

映射生活的身影
2026-06-03 08:35:49
为富商连生3娃,住进北京别墅,远离春晚11年,如今她越活越潇洒

为富商连生3娃,住进北京别墅,远离春晚11年,如今她越活越潇洒

翰飞观事
2026-06-01 09:51:13
我今年54岁,娶了个42岁的寡妇,结婚当晚才知道,我拣着宝了

我今年54岁,娶了个42岁的寡妇,结婚当晚才知道,我拣着宝了

千秋文化
2026-06-03 20:37:30
尼克斯利好!米罗右手骨折仍出战总决赛G1:前板+二次进攻要靠他

尼克斯利好!米罗右手骨折仍出战总决赛G1:前板+二次进攻要靠他

罗说NBA
2026-06-04 06:10:50
周杰伦与黄晓明合照秀肌肉,黄晓明:周董这手臂肌肉确实牛

周杰伦与黄晓明合照秀肌肉,黄晓明:周董这手臂肌肉确实牛

韩小娱
2026-06-03 16:18:35
马思纯回应身材争议:我的丰满是我的优势

马思纯回应身材争议:我的丰满是我的优势

动物奇奇怪怪
2026-06-03 01:11:55
赵勇罕见情绪失控咆哮女排姑娘:你们越打越闷,怕什么输了算我的

赵勇罕见情绪失控咆哮女排姑娘:你们越打越闷,怕什么输了算我的

杨华评论
2026-06-03 21:57:55
樊振东留洋 4 个月豪夺 3 冠,却突然紧急提前回国,特训原因曝光

樊振东留洋 4 个月豪夺 3 冠,却突然紧急提前回国,特训原因曝光

乐天闲聊
2026-06-04 04:48:47
这4个行业,已经发不出工资了!真的很严重了

这4个行业,已经发不出工资了!真的很严重了

世界圈
2026-06-03 10:19:49
24小时已过,普京政府准时断供,航油不卖中国,欧盟启动应急方案

24小时已过,普京政府准时断供,航油不卖中国,欧盟启动应急方案

娱乐小可爱蛙
2026-06-04 01:17:52
卖掉开8年的燃油车,花35万买了一辆理想L8,开了6个月,终于明白

卖掉开8年的燃油车,花35万买了一辆理想L8,开了6个月,终于明白

沙雕小琳琳
2026-06-01 06:06:09
大雨大风来了!济南辖区多个收费站已管控

大雨大风来了!济南辖区多个收费站已管控

齐鲁壹点
2026-06-03 21:05:23
2026-06-04 06:28:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13159文章数 142660关注度
往期回顾 全部

科技要闻

传DeepSeek融资意向500亿:腾讯投100亿

头条要闻

男子不想上班辞职后上武当山当道士 8个月后选择下山

头条要闻

男子不想上班辞职后上武当山当道士 8个月后选择下山

体育要闻

选择中国品牌的库里,和他们的巨大野心

娱乐要闻

官方痛批乱象 刘涛郑恺等艺人遭点名

财经要闻

AI,开始偷懒了?

汽车要闻

专访蒋平:安全不做高低配 长安要让安全技术普惠

态度原创

房产
艺术
数码
教育
军事航空

房产要闻

突发!254亩调规,海口江东的超级学校真的快来了!

艺术要闻

去这8个地方走走~过一个五彩斑斓的夏天!

数码要闻

高通CEO安蒙:“2026年是智能体之年”,Token成AI新货币

教育要闻

问答环节(留学建议与中外金融史)

军事要闻

媒体:美伊和谈以方却从中作梗 内塔尼亚胡有私人算计

无障碍浏览 进入关怀版