网易首页 > 网易号 > 正文 申请入驻

清华姚班校友马腾宇,发布了他的首个多模态嵌入模型:「多模态检索」实现SOTA

0
分享至

清华姚班校友马腾宇和他的团队,推出了自创业以来的首个多模态嵌入模型 voyage-multimodal-3,而且发布即“SOTA”

据介绍,在对 3 个多模态检索任务(共 20 个数据集)进行评估时,voyage-multimodal-3比第二名平均高出了 19.63% 的检索准确率。这是为包含丰富视觉和文本的文档提供无缝 RAG 和语义搜索的重要进展。

去年 11 月,已为斯坦福大学助理教授的马腾宇,正式宣布了他的大模型创业项目 Voyage-AI,旨在提供 SOTA 嵌入模型,为企业的智能检索提供超级动力,推动检索增强生成(RAG)和可信赖的大语言模型(LLM)应用的发展。

据 Voyage-AI 官网显示,他们的学术顾问十分豪华,包括斯坦福大学首位红杉讲席教授李飞飞、斯坦福大学教授 Christopher Manning 和斯坦福大学副教授 Christopher Ré 等。9 月,Voyage-AI 完成了 2000 万美元 A 轮融资,总融资额达到 2800 万美元。

据介绍,与现有的多模态嵌入模型不同,voyage-multimodal-3 能够对交错文本和图像进行矢量化处理,并从 PDF、幻灯片、表格、数字等截图中捕捉关键视觉特征,而无需进行复杂的文档解析

voyage-multimodal-3 支持文本和内容丰富的图像,如文本截图、数字、表格、PDF、幻灯片等。由此产生的矢量可捕捉关键的文本和视觉特征,如字体大小、文本位置、空白等。这消除了基于启发式的文档解析的需要,因为当布局复杂或穿插数字和照片时,启发式文档解析往往难以保证准确性。与处理单一文本或图片输入的现有多模态嵌入模型不同,voyage-multimodal-3 允许交错文本和图片,以实现最大的灵活性。

voyage-multimodal-3 的架构类似于视觉语言 transformers。这使得它与现有的多模态嵌入模型显著不同,包括但不限于 OpenAI CLIP large (clip-vit-large-patch14-336) 和 Cohere multimodal v3 (embed-multimodal-v3.0))。

在对 20 个多模态检索数据集和 34 个文本检索数据集进行的一组评估中,voyage-multimodal-3:

  • 在表格/图表检索方面,平均分别比 OpenAI CLIP large 和 Cohere multimodal v3 高出 41.44%(提高 2.1 倍)和 43.37%(提高 2.2 倍);在文档截图检索方面,分别比 OpenAI CLIP large 和 Cohere multimodal v3 高出 26.54% 和 25.84%;在文本到图片检索方面,分别比 OpenAI CLIP large 和 Cohere multimodal v3 高出 6.55% 和 5.86%。

  • 在纯文本数据集方面,分别比 OpenAI v3 large 和 Cohere multimodal/English1 v3 高出 5.13% 和 13.70%。

支持交错文本和图像

所有现有的常用多模态嵌入模型(如 Amazon Titan Multimodal G1、Google Vertex AI multimodal 和 Cohere multimodal v3)都基于 OpenAI 的 CLIP,其通过独立网络处理不同模态的数据。换句话说,图像必须通过视觉塔(vision tower)进行矢量化,而文本必须通过文本塔(text tower)进行矢量化,无法处理交错数据。

相反,voyage-multimodal-3 在同一个 transformer 编码器中直接对两种模态的数据进行矢量化,确保文本和视觉特征都被视为统一表征的一部分,而不是截然不同的组件。这模仿了最新视觉语言模型的架构,只是用于矢量化而非生成。因此,交错文本和图像、文档截图、具有复杂布局的 PDF 文件、带注释的图像等都能以保留视觉信息和文本信息之间上下文关系的方式进行矢量化。

利用截图进行混合模态搜索

由于模态差距(modality gap)这一现象,所有类似 CLIP 的模型在混合模态搜索方面都表现不佳。如下图所示,与“第七十七届国会成员,我向你们致辞......”片段最接近的向量不是其截图,而是其他文本。这导致搜索结果偏向于相同模态的条目;换句话说,在嵌入空间中,文本向量将更接近无关文本,而不是相关图片。

为了从数量上说明这个问题,他们进行了一项涉及混合模态数据的实验。他们创建了两套内容相同的 PyTorch 文档:一套是纯文本(字符串),另一套是屏幕截图。通过将基于文本的文档子集与剩余子集的屏幕截图相结合,他们创建了一系列混合模态数据集。每个数据集代表不同比例的文本和屏幕截图,屏幕截图的比例从 0% 到 100% 不等。然后,他们在这些数据集上评估了各种多模态模型的检索准确性,报告了每个模型在不同截图比例下的归一化折算累积增益(NDCG@10)。

如上图所示,当屏幕截图的比例增加到 90% 时,基于 CLIP 的模型的检索质量就会下降,这凸显了受模态影响的检索偏差。

相比之下,voyage-multimodal-3 不仅在所有比例下都表现更好,而且在所有情况下几乎没有性能下降,这表明矢量真正捕捉到了截图中包含的语义内容。

有了 voyage-multimodal-3,我们就不再需要屏幕解析模型、布局分析或任何其他复杂的文本提取管道;我们可以轻松地将包含纯文本文档和非结构化数据(如 PDF/幻灯片/网页等)的知识库矢量化。屏幕截图就是你所需要的一切

详细评估结果

数据集。他们在 20 个多模态数据集上对 voyage-multimodal-3 进行了评估,这些数据集涵盖三个不同的任务:表格/图表检索、文档截图检索和文本到图片检索。他们还在一个标准文本检索任务中对 voyage-multimodal-3 进行了评估,该任务涵盖 6 个领域(法律、金融、对话、代码、网络和技术)的 34 个数据集。

在所有数据集中,查询都是文本,而文档可以是图、照片、文本、文档截图或这些内容的组合。对于每项任务,他们都使用之前表现最好的模型作为基准。除了任务名称,他们还在下表中提供了每个任务的相应说明和使用的数据集:

请注意,标准文本检索任务包括用于评估 voyage-3 和 voyage-3-lite 的所有数据集,长上下文和多语言数据集除外。

模型。对于三个多模态任务,他们将 voyage-multimodal-3 与四个可供选择的多模态嵌入模型进行了评估:OpenAI CLIP large(clip-vit-large-patch14-336)、Amazon Titan Multimodal Embeddings G1(amazon.titan-embed-image-v1)、Cohere multimodal v3(embed-multimodal-v3.0)和 SigLIP So400M(siglip-so400m-patch14-384)。他们还评估了 ColQwen2 v0.1(colqwen-v0.1),这是一种后期交互模型,可为每篇文档输出多个嵌入。

对于标准文本检索任务,他们评估了 voyage-multimodal-3 以及 OpenAI v3 large (text-embeddings-3-large)、Cohere multimodal/English1 v3 和 voyage-3。

指标。给定一个查询,他们按余弦相似度检索前 10 个结果,并报告 NDCG@10。

结果

多模态检索。如下图所示,voyage-multimodal-3 的性能分别比 OpenAI CLIP large、Amazon Titan Multimodal G1、Cohere multimodal v3、SigLIP So400M 和 ColQwen2 v0.1 高出:

  • 在表格/图表检索上:41.44%、45.00%、43.37%、20.66% 和 6.14%;

  • 在文档截图检索上:26.54%、37.68%、25.84%、35.62% 和 0.98%;

  • 在标准文本检索上:6.55%、5.16%、5.86%、3.42% 和 10.34%。

如下图所示,voyage-multimodal-3 的性能分别比 OpenAI v3 large 和 Cohere multimodal/English1 v3 高出 5.13% 和 13.70%。voyage-multimodal-3 的性能比 voyage-3 高出 0.05%,因此两者在纯文本文档的检索准确率方面不相上下。

更多资料:

blog:

https://blog.voyageai.com/2024/11/12/voyage-multimodal-3/

sample notebook:

https://docs.voyageai.com/docs/multimodal-embeddings

docs:

https://docs.voyageai.com/docs/multimodal-embeddings

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
重磅!米其林首推湖南省级餐厅榜单,长沙、衡阳、益阳三城入选

重磅!米其林首推湖南省级餐厅榜单,长沙、衡阳、益阳三城入选

潇湘晨报
2026-05-27 17:19:18
何超莲没想到,央剧《主角》播出过半,37岁窦骁意外实现口碑逆转

何超莲没想到,央剧《主角》播出过半,37岁窦骁意外实现口碑逆转

情感大头说说
2026-05-26 21:15:21
德国华人连环迷奸案,“体面人”的恶劣性暴力

德国华人连环迷奸案,“体面人”的恶劣性暴力

中国新闻周刊
2026-05-26 23:01:52
“真不知道怎么向儿子交代”,男子用压岁钱给儿子建户买股票,5个月过去浮亏747.35元,当事人:“六一”将坦然向儿子展示账户盈亏

“真不知道怎么向儿子交代”,男子用压岁钱给儿子建户买股票,5个月过去浮亏747.35元,当事人:“六一”将坦然向儿子展示账户盈亏

大风新闻
2026-05-27 16:25:04
中国女篮新消息!韩旭李月汝近况曝光,李梦亮相,宫鲁鸣算明白了

中国女篮新消息!韩旭李月汝近况曝光,李梦亮相,宫鲁鸣算明白了

胡一舸南游y
2026-05-27 13:43:59
金庸:大儿子自缢,二儿子入狱,大女儿失聪,唯有小女儿命好一点

金庸:大儿子自缢,二儿子入狱,大女儿失聪,唯有小女儿命好一点

飘飘然的娱乐汇
2026-05-18 20:15:08
武契奇乘小飞机访华,但中方给塞尔维亚的东西,10架运20都装不下

武契奇乘小飞机访华,但中方给塞尔维亚的东西,10架运20都装不下

共工之锚
2026-05-27 00:28:49
能跑马拉松的,都是狠人!网友:这些人狠起来,估计连自己都怕!

能跑马拉松的,都是狠人!网友:这些人狠起来,估计连自己都怕!

马拉松跑步健身
2026-05-27 19:58:55
网友将问界新车路测画面发给国家反诈中心,被认定为AI生成

网友将问界新车路测画面发给国家反诈中心,被认定为AI生成

西虹市闲话
2026-05-26 16:43:17
神二十一号3人乘组将回家:为何选东风着陆场?返回地球后做啥?

神二十一号3人乘组将回家:为何选东风着陆场?返回地球后做啥?

环球科学猫
2026-05-27 12:53:29
其实他才是对华敌意最深的美国总统,差一点锁死咱们的崛起之路

其实他才是对华敌意最深的美国总统,差一点锁死咱们的崛起之路

开着车去流浪
2026-05-15 15:28:45
普京遗憾返程,谈了二十年都没戏,中国这次要俄认清一个事实

普京遗憾返程,谈了二十年都没戏,中国这次要俄认清一个事实

霁寒飘雪
2026-05-26 11:35:31
泽连斯基从美俄手中夺回主动权,乌克兰获得新的筹码

泽连斯基从美俄手中夺回主动权,乌克兰获得新的筹码

山河路口
2026-05-27 18:12:46
买榴莲别挑开裂的,教你挑“母”榴莲,一挑一个准,打开个个懂事

买榴莲别挑开裂的,教你挑“母”榴莲,一挑一个准,打开个个懂事

思思夜话
2026-05-27 11:35:09
央视主持人朱军蒙冤六年,女方终于得到迟来的惩罚,全网叫好

央视主持人朱军蒙冤六年,女方终于得到迟来的惩罚,全网叫好

小鋭有话说
2026-05-27 15:18:01
浙江广厦和上海男篮会师CBA总决赛,李春江的篮球遗产有多厚?

浙江广厦和上海男篮会师CBA总决赛,李春江的篮球遗产有多厚?

冷桂零落
2026-05-27 20:21:53
上海市奉贤区一栋独栋大别墅295万拍卖,结果被房东408万又买下来

上海市奉贤区一栋独栋大别墅295万拍卖,结果被房东408万又买下来

说故事的阿袭
2026-05-27 12:16:44
太逆天了!桥中间竟然是断开的?

太逆天了!桥中间竟然是断开的?

空间设计
2026-05-26 12:12:46
密集反腐!安徽多名干部被通报

密集反腐!安徽多名干部被通报

凤凰网安徽
2026-05-27 17:21:08
万万没有想到,赖清德的父亲赖朝金,非但不是日本人而且是中国人

万万没有想到,赖清德的父亲赖朝金,非但不是日本人而且是中国人

兰妮搞笑分享
2026-05-27 17:33:29
2026-05-27 22:07:00
人工智能研究 incentive-icons
人工智能研究
分享深度学习、CV、NLP
300文章数 135关注度
往期回顾 全部

科技要闻

韬定律:全球在卷纳米数 华为换了一把尺子

头条要闻

女子称车祸住院遭男医生侵犯 送检的纸巾检出医生精斑

头条要闻

女子称车祸住院遭男医生侵犯 送检的纸巾检出医生精斑

体育要闻

这群老阿姨,是最硬核的马刺球迷

娱乐要闻

王鹤棣风波连累父亲炸串店遭差评?

财经要闻

中国半导体的阳谋

汽车要闻

限时补贴价9.28-10.98万 MG 4X正式上市

态度原创

健康
艺术
手机
游戏
军事航空

打外泌体会比干细胞更安全吗

艺术要闻

这个夏天去苏州过几天清闲安逸的日子

手机要闻

华为余承东:全新问界M9系列1小时大定突破11000台

《巫师3》新DLC终于来了!CDPR这次会再次封神吗?

军事要闻

以军称已打死哈马斯新任军事领导人

无障碍浏览 进入关怀版