网易首页 > 网易号 > 正文 申请入驻

阿里多模态检索智能体,自带o1式思考过程!复杂问题逐步拆解

0
分享至

OmniSearch团队 投稿
量子位 | 公众号 QbitAI

多模态检索增强生成(mRAG)也有o1思考推理那味儿了!

阿里通义实验室新研究推出自适应规划的多模态检索智能体。

名叫OmniSearch,它能模拟人类解决问题的思维方式,将复杂问题逐步拆解进行智能检索规划。

直接看效果:

随便上传一张图,询问任何问题,OmniSearch都会进行一段“思考过程”,不仅会将复杂问题拆解检索,而且会根据当前检索结果和问题情境动态调整下一步检索策略

相比传统mRAG受制于其静态的检索策略,这种设计不仅提高了检索效率,也显著增强了模型生成内容的准确性。

为评估OmniSearch,研究团队构建了全新Dyn-VQA数据集

在一系列基准数据集上的实验中,OmniSearch展现了显著的性能优势。特别是在处理需要多步推理、多模态知识和快速变化答案的问题时,OmniSearch相较于现有的mRAG方法表现更为优异。

目前OmniSearch在魔搭社区还有demo可玩。

动态检索规划框架,打破传统mRAG局限

传统mRAG方法遵循固定的检索流程,典型的步骤如下:

  • 输入转化:接收多模态输入(例如图像+文本问题),将图像转化为描述性文本(例如通过image caption模型)。
  • 单一模态检索:将问题或描述性文本作为检索查询,向知识库发送单一模态检索请求(通常是文本检索)。
  • 固定生成流程:将检索到的信息与原始问题结合,交由MLLM生成答案。

OmniSearch旨在解决传统mRAG方法的以下痛点:

  • 静态检索策略的局限:传统方法采用固定的两步检索流程,无法根据问题和检索内容动态调整检索路径,导致信息获取效率低下。
  • 检索查询过载:单一检索查询往往包含了多个查询意图,反而会引入大量无关信息,干扰模型的推理过程。

为克服上述局限,OmniSearch引入了一种动态检索规划框架。

OmniSearch的核心架构包括:

  • 规划智能体(Planning Agent):负责对原始问题进行逐步拆解,根据每个检索步骤的反馈决定下一步的子问题及检索策略。
  • 检索器(Retriever):执行实际的检索任务,支持图像检索、文本检索以及跨模态检索。
  • 子问题求解器(Sub-question Solver):对检索到的信息进行总结和解答,具备高度的可扩展性,可以与不同大小的多模态大语言模型集成。
  • 迭代推理与检索(Iterative Reasoning and Retrieval):通过递归式的检索与推理流程,逐步接近问题的最终答案。
  • 多模态特征的交互:有效处理文本、图像等多模态信息,灵活调整检索策略。
  • 反馈循环机制(Feedback Loop):在每一步检索和推理后,反思当前的检索结果并决定下一步行动,以提高检索的精确度和有效性。

构建新数据集进行实验评估

为了更好地评估OmniSearch和其它mRAG方法的性能,研究团队构建了全新的Dyn-VQA数据集。Dyn-VQA包含1452个动态问题,涵盖了以下三种类型:

  • 答案快速变化的问题:这类问题的背景知识不断更新,需要模型具备动态的再检索能力。例如,询问某位明星的最新电影票房,答案会随着时间的推移而发生变化。
  • 多模态知识需求的问题:问题需要同时从多模态信息(如图像、文本等)中获取知识。例如,识别一张图片中的球员,并回答他的球队图标是什么。
  • 多跳问题:问题需要多个推理步骤,要求模型在检索后进行多步推理。

这些类型的问题相比传统的VQA数据集需要更复杂的检索流程,更考验多模态检索方法对复杂检索的规划能力。

在Dyn-VQA数据集上的表现

  • 答案更新频率:对于答案快速变化的问题,OmniSearch的表现显著优于GPT-4V结合启发式mRAG方法,准确率提升了近88%。
  • 多模态知识需求:OmniSearch能够有效地结合图像和文本进行检索,其在需要额外视觉知识的复杂问题上的表现远超现有模型,准确率提高了35%以上。
  • 多跳推理问题:OmniSearch通过多次检索和动态规划,能够精确解决需要多步推理的问题,实验结果表明其在这类问题上的表现优于当前最先进的多模态模型,准确率提升了约35%。

在其它数据集上的表现

接近人类级别表现:

OmniSearch在大多数VQA任务上达到了接近人类水平的表现。例如,在VQAv2和A-OKVQA数据集中,OmniSearch的准确率分别达到了70.34和84.12,显著超越了传统mRAG方法。

复杂问题处理能力:

在更具挑战性的Dyn-VQA数据集上,OmniSearch通过多步检索策略显著提升了模型的表现,达到了50.03的F1-Recall评分,相比基于GPT-4V的传统两步检索方法提升了近14分。

模块化能力与可扩展性

OmniSearch可以灵活集成不同规模和类型的多模态大语言模型(MLLM)作为子问题求解器。

无论是开源模型(如Qwen-VL-Chat)还是闭源模型(如GPT-4V),OmniSearch都能通过动态规划与这些模型协作完成复杂问题的解决。

它的模块化设计允许根据任务需求选择最合适的模型,甚至在不同阶段调用不同大小的MLLM,以在性能和计算成本之间实现灵活平衡。

下面是OmniSearch和不同模型配合的实验结果:

Paper:https://arxiv.org/abs/2411.02937
Github:https://github.com/Alibaba-NLP/OmniSearch
ModelScope Demo: https://modelscope.cn/studios/iic/OmniSearch/summary?header=default&fullWidth=false

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
卡福:应尊重安切洛蒂对内马尔的决定

卡福:应尊重安切洛蒂对内马尔的决定

懂球帝
2026-05-16 22:13:40
哈达德已身亡

哈达德已身亡

新京报政事儿
2026-05-16 18:36:12
中美峰会,蔡英文表态后,国民党一人不装了,新党发声,不一般

中美峰会,蔡英文表态后,国民党一人不装了,新党发声,不一般

DS北风
2026-05-15 18:38:11
商务部新闻发言人就中美经贸磋商初步成果答记者问

商务部新闻发言人就中美经贸磋商初步成果答记者问

界面新闻
2026-05-16 20:15:14
特朗普在中国喝了一口酒,把日本媒体整破防了!标题就说明了一切

特朗普在中国喝了一口酒,把日本媒体整破防了!标题就说明了一切

青青子衿
2026-05-16 19:42:03
“美国制造”不见了!“特朗普移动”手机开始发货,59万人交了总计5900万美元定金

“美国制造”不见了!“特朗普移动”手机开始发货,59万人交了总计5900万美元定金

红星新闻
2026-05-16 18:35:41
WSBK捷克站正赛首回合,张雪机车车手斩获赛季第四冠

WSBK捷克站正赛首回合,张雪机车车手斩获赛季第四冠

澎湃新闻
2026-05-16 19:02:26
影帝黄渤新片惨败,成本超2亿,票房不到100万,观众因何弃他?

影帝黄渤新片惨败,成本超2亿,票房不到100万,观众因何弃他?

影视高原说
2026-05-16 07:04:06
张雪峰猝死不到2月,小沈阳被紧急送往就医,已是10天内第二次

张雪峰猝死不到2月,小沈阳被紧急送往就医,已是10天内第二次

她时尚丫
2026-05-15 21:40:35
江苏将于17日迎来强降水 局地有雷电和大风

江苏将于17日迎来强降水 局地有雷电和大风

金台资讯
2026-05-16 08:43:35
拉塞尔12秒25夺得女子100米栏冠军,吴艳妮13秒16位列第七

拉塞尔12秒25夺得女子100米栏冠军,吴艳妮13秒16位列第七

懂球帝
2026-05-16 21:09:28
海莉·比伯穿丁字裤晒背影,刚否认做过巴西提臀术

海莉·比伯穿丁字裤晒背影,刚否认做过巴西提臀术

自愈小日子
2026-05-17 01:02:20
“给儿子吃得大脑缺氧了!”一顿全碳水早餐,暴露了宝妈的低认知

“给儿子吃得大脑缺氧了!”一顿全碳水早餐,暴露了宝妈的低认知

妍妍教育日记
2026-05-14 13:30:26
华为突然宣布:5月15日,Mate80全系正式官降

华为突然宣布:5月15日,Mate80全系正式官降

科技堡垒
2026-05-15 11:44:35
敬酒前宾客全走完了!河南新娘当场大哭追责,店家一句话全网沉默

敬酒前宾客全走完了!河南新娘当场大哭追责,店家一句话全网沉默

行者聊官
2026-05-16 16:00:17
人民大会堂国宴服务员惊艳刷屏:相貌大方,气质端庄,太美了!

人民大会堂国宴服务员惊艳刷屏:相貌大方,气质端庄,太美了!

TVB的四小花
2026-05-16 15:25:56
5月16日俄乌:俄罗斯不得不修改计划了

5月16日俄乌:俄罗斯不得不修改计划了

山河路口
2026-05-16 18:39:14
太离谱!原价2700元炒到近7万元!深圳有人通宵排队……

太离谱!原价2700元炒到近7万元!深圳有人通宵排队……

深圳晚报
2026-05-16 22:58:48
歌手温岚因脓毒症休克紧急入住ICU,三甲医院医生解读:是感染界“天花板”,居家死亡率100%

歌手温岚因脓毒症休克紧急入住ICU,三甲医院医生解读:是感染界“天花板”,居家死亡率100%

环球网资讯
2026-05-16 07:50:46
江西举报恩人沈女士已社死,正脸照被爆,大叔岗位被调,景区回应

江西举报恩人沈女士已社死,正脸照被爆,大叔岗位被调,景区回应

云舟史策
2026-05-16 09:39:33
2026-05-17 02:43:00
量子位 incentive-icons
量子位
追踪人工智能动态
12635文章数 176463关注度
往期回顾 全部

科技要闻

涨的是车价,要的是老命

头条要闻

又想“抹黑”中国 福克斯新闻“翻车”了

头条要闻

又想“抹黑”中国 福克斯新闻“翻车”了

体育要闻

马刺2号,少年老成,这集看过?

娱乐要闻

谢霆锋北京街头骑行被偶遇,侧颜帅炸

财经要闻

造词狂魔贾跃亭

汽车要闻

大五座SUV卷王!乐道L80上市 租电15.68万元起

态度原创

艺术
家居
房产
数码
健康

艺术要闻

惊!艾米·亚当斯竟是坠入凡间的仙女?

家居要闻

110㎡淡而有致的生活表达

房产要闻

老黄埔热销之下,珠江春,为何去化仅3成?

数码要闻

科技巨头访华遇618 苹果、高通、英伟达集中促销中

专家揭秘干细胞回输的安全风险

无障碍浏览 进入关怀版