网易首页 > 网易号 > 正文 申请入驻

清华姚班校友马腾宇,发布了他的首个多模态嵌入模型:「多模态检索」实现SOTA

0
分享至


清华姚班校友马腾宇和他的团队,推出了自创业以来的首个多模态嵌入模型 voyage-multimodal-3,而且发布即“SOTA”

据介绍,在对 3 个多模态检索任务(共 20 个数据集)进行评估时,voyage-multimodal-3比第二名平均高出了 19.63% 的检索准确率。这是为包含丰富视觉和文本的文档提供无缝 RAG 和语义搜索的重要进展。

去年 11 月,已为斯坦福大学助理教授的马腾宇,正式宣布了他的大模型创业项目 Voyage-AI,旨在提供 SOTA 嵌入模型,为企业的智能检索提供超级动力,推动检索增强生成(RAG)和可信赖的大语言模型(LLM)应用的发展。

据 Voyage-AI 官网显示,他们的学术顾问十分豪华,包括斯坦福大学首位红杉讲席教授李飞飞、斯坦福大学教授 Christopher Manning 和斯坦福大学副教授 Christopher Ré 等。9 月,Voyage-AI 完成了 2000 万美元 A 轮融资,总融资额达到 2800 万美元。


据介绍,与现有的多模态嵌入模型不同,voyage-multimodal-3 能够对交错文本和图像进行矢量化处理,并从 PDF、幻灯片、表格、数字等截图中捕捉关键视觉特征,而无需进行复杂的文档解析

voyage-multimodal-3 支持文本和内容丰富的图像,如文本截图、数字、表格、PDF、幻灯片等。由此产生的矢量可捕捉关键的文本和视觉特征,如字体大小、文本位置、空白等。这消除了基于启发式的文档解析的需要,因为当布局复杂或穿插数字和照片时,启发式文档解析往往难以保证准确性。与处理单一文本或图片输入的现有多模态嵌入模型不同,voyage-multimodal-3 允许交错文本和图片,以实现最大的灵活性。

voyage-multimodal-3 的架构类似于视觉语言 transformers。这使得它与现有的多模态嵌入模型显著不同,包括但不限于 OpenAI CLIP large (clip-vit-large-patch14-336) 和 Cohere multimodal v3 (embed-multimodal-v3.0))。


在对 20 个多模态检索数据集和 34 个文本检索数据集进行的一组评估中,voyage-multimodal-3:

  • 在表格/图表检索方面,平均分别比 OpenAI CLIP large 和 Cohere multimodal v3 高出 41.44%(提高 2.1 倍)和 43.37%(提高 2.2 倍);在文档截图检索方面,分别比 OpenAI CLIP large 和 Cohere multimodal v3 高出 26.54% 和 25.84%;在文本到图片检索方面,分别比 OpenAI CLIP large 和 Cohere multimodal v3 高出 6.55% 和 5.86%。

  • 在纯文本数据集方面,分别比 OpenAI v3 large 和 Cohere multimodal/English1 v3 高出 5.13% 和 13.70%。

支持交错文本和图像

所有现有的常用多模态嵌入模型(如 Amazon Titan Multimodal G1、Google Vertex AI multimodal 和 Cohere multimodal v3)都基于 OpenAI 的 CLIP,其通过独立网络处理不同模态的数据。换句话说,图像必须通过视觉塔(vision tower)进行矢量化,而文本必须通过文本塔(text tower)进行矢量化,无法处理交错数据。


相反,voyage-multimodal-3 在同一个 transformer 编码器中直接对两种模态的数据进行矢量化,确保文本和视觉特征都被视为统一表征的一部分,而不是截然不同的组件。这模仿了最新视觉语言模型的架构,只是用于矢量化而非生成。因此,交错文本和图像、文档截图、具有复杂布局的 PDF 文件、带注释的图像等都能以保留视觉信息和文本信息之间上下文关系的方式进行矢量化。

利用截图进行混合模态搜索

由于模态差距(modality gap)这一现象,所有类似 CLIP 的模型在混合模态搜索方面都表现不佳。如下图所示,与“第七十七届国会成员,我向你们致辞......”片段最接近的向量不是其截图,而是其他文本。这导致搜索结果偏向于相同模态的条目;换句话说,在嵌入空间中,文本向量将更接近无关文本,而不是相关图片。


为了从数量上说明这个问题,他们进行了一项涉及混合模态数据的实验。他们创建了两套内容相同的 PyTorch 文档:一套是纯文本(字符串),另一套是屏幕截图。通过将基于文本的文档子集与剩余子集的屏幕截图相结合,他们创建了一系列混合模态数据集。每个数据集代表不同比例的文本和屏幕截图,屏幕截图的比例从 0% 到 100% 不等。然后,他们在这些数据集上评估了各种多模态模型的检索准确性,报告了每个模型在不同截图比例下的归一化折算累积增益(NDCG@10)。


如上图所示,当屏幕截图的比例增加到 90% 时,基于 CLIP 的模型的检索质量就会下降,这凸显了受模态影响的检索偏差。

相比之下,voyage-multimodal-3 不仅在所有比例下都表现更好,而且在所有情况下几乎没有性能下降,这表明矢量真正捕捉到了截图中包含的语义内容。

有了 voyage-multimodal-3,我们就不再需要屏幕解析模型、布局分析或任何其他复杂的文本提取管道;我们可以轻松地将包含纯文本文档和非结构化数据(如 PDF/幻灯片/网页等)的知识库矢量化。屏幕截图就是你所需要的一切

详细评估结果

数据集。他们在 20 个多模态数据集上对 voyage-multimodal-3 进行了评估,这些数据集涵盖三个不同的任务:表格/图表检索、文档截图检索和文本到图片检索。他们还在一个标准文本检索任务中对 voyage-multimodal-3 进行了评估,该任务涵盖 6 个领域(法律、金融、对话、代码、网络和技术)的 34 个数据集。

在所有数据集中,查询都是文本,而文档可以是图、照片、文本、文档截图或这些内容的组合。对于每项任务,他们都使用之前表现最好的模型作为基准。除了任务名称,他们还在下表中提供了每个任务的相应说明和使用的数据集:



请注意,标准文本检索任务包括用于评估 voyage-3 和 voyage-3-lite 的所有数据集,长上下文和多语言数据集除外。

模型。对于三个多模态任务,他们将 voyage-multimodal-3 与四个可供选择的多模态嵌入模型进行了评估:OpenAI CLIP large(clip-vit-large-patch14-336)、Amazon Titan Multimodal Embeddings G1(amazon.titan-embed-image-v1)、Cohere multimodal v3(embed-multimodal-v3.0)和 SigLIP So400M(siglip-so400m-patch14-384)。他们还评估了 ColQwen2 v0.1(colqwen-v0.1),这是一种后期交互模型,可为每篇文档输出多个嵌入。

对于标准文本检索任务,他们评估了 voyage-multimodal-3 以及 OpenAI v3 large (text-embeddings-3-large)、Cohere multimodal/English1 v3 和 voyage-3。

指标。给定一个查询,他们按余弦相似度检索前 10 个结果,并报告 NDCG@10。

结果

多模态检索。如下图所示,voyage-multimodal-3 的性能分别比 OpenAI CLIP large、Amazon Titan Multimodal G1、Cohere multimodal v3、SigLIP So400M 和 ColQwen2 v0.1 高出:

  • 在表格/图表检索上:41.44%、45.00%、43.37%、20.66% 和 6.14%;

  • 在文档截图检索上:26.54%、37.68%、25.84%、35.62% 和 0.98%;

  • 在标准文本检索上:6.55%、5.16%、5.86%、3.42% 和 10.34%。

如下图所示,voyage-multimodal-3 的性能分别比 OpenAI v3 large 和 Cohere multimodal/English1 v3 高出 5.13% 和 13.70%。voyage-multimodal-3 的性能比 voyage-3 高出 0.05%,因此两者在纯文本文档的检索准确率方面不相上下。


更多资料:

blog:

https://blog.voyageai.com/2024/11/12/voyage-multimodal-3/

sample notebook:

https://docs.voyageai.com/docs/multimodal-embeddings

docs:

https://docs.voyageai.com/docs/multimodal-embeddings


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

/阅读下一篇/

算法不重要,AI的下一个范式突破,「解锁」新数据源才是关键

返回网易首页 下载网易新闻客户端
相关推荐
热点推荐
惨败折射广东三大窘境!李春江卷土重来,CBA班霸或将被横扫出局?

惨败折射广东三大窘境!李春江卷土重来,CBA班霸或将被横扫出局?

白国华
2025-04-16 15:06:49
福耀玻璃董事长曹德旺:美国随便增关税,只要不赚钱我就不卖!

福耀玻璃董事长曹德旺:美国随便增关税,只要不赚钱我就不卖!

娱乐看阿敞
2025-04-16 10:11:39
王思聪开卖“吃起来像超市合成”的19块9牛排,“我这仨瓜俩枣也要赚走呗”

王思聪开卖“吃起来像超市合成”的19块9牛排,“我这仨瓜俩枣也要赚走呗”

Vista氢商业
2025-04-15 14:39:06
车机断联、钥匙失效、定位丢失!多地哪吒汽车遭遇断网风波

车机断联、钥匙失效、定位丢失!多地哪吒汽车遭遇断网风波

环球Tech
2025-04-14 19:32:29
砍下全场最高38分勇士官方评选本场最佳球员 巴特勒当选

砍下全场最高38分勇士官方评选本场最佳球员 巴特勒当选

直播吧
2025-04-16 13:23:09
消息称iPhone印度组装量近一年增长60% 目前已占到全球产量20%

消息称iPhone印度组装量近一年增长60% 目前已占到全球产量20%

TechWeb
2025-04-15 16:19:02
台军爆发军官退伍“申请潮”

台军爆发军官退伍“申请潮”

观察者网
2025-04-16 15:28:06
山西大同 “订婚强奸案” 中,被害人处女膜完整能否构成强奸罪

山西大同 “订婚强奸案” 中,被害人处女膜完整能否构成强奸罪

衡阳封云凯律师
2025-03-25 18:50:53
很“镇宅”的3种植物,为家带来平安和好运,再穷也要养1盆!

很“镇宅”的3种植物,为家带来平安和好运,再穷也要养1盆!

平祥生活日志
2025-04-09 08:03:29
比恒大还惨!中国第二大民企倒了,负债7500亿,创始人被带走

比恒大还惨!中国第二大民企倒了,负债7500亿,创始人被带走

影史侃谈
2025-03-16 22:40:07
季后赛如何?常规赛火箭与勇士交手5次 火箭2胜3负

季后赛如何?常规赛火箭与勇士交手5次 火箭2胜3负

直播吧
2025-04-16 13:33:09
62岁叶童参加活动,突遭疯狂粉丝“袭击”,现场画面曝光惹争议

62岁叶童参加活动,突遭疯狂粉丝“袭击”,现场画面曝光惹争议

七阿姨爱八卦
2025-04-16 15:27:01
三位亲华美国总统,一位帮助中国进入五常,一位改变世界格局

三位亲华美国总统,一位帮助中国进入五常,一位改变世界格局

前沿天地
2025-04-16 14:39:59
妻子出轨,丈夫将15公分蜡烛塞进妻子的阴道内

妻子出轨,丈夫将15公分蜡烛塞进妻子的阴道内

胖胖侃咖
2025-04-13 08:00:08
40岁唐嫣到国外也放飞了!穿连体衣下面不系扣,这是什么新潮流

40岁唐嫣到国外也放飞了!穿连体衣下面不系扣,这是什么新潮流

最炫时尚
2025-02-19 17:09:59
马卡解读皇马TIFO:红色棋子代表阿森纳,它被国王拿捏在指尖上

马卡解读皇马TIFO:红色棋子代表阿森纳,它被国王拿捏在指尖上

直播吧
2025-04-16 16:04:08
晴燥终结?广东未来几天雷雨趋明显

晴燥终结?广东未来几天雷雨趋明显

广东天气
2025-04-16 14:41:02
轰动全国的鲁荣渔惨案:33人出海11人返航,活下来的全是杀人凶手

轰动全国的鲁荣渔惨案:33人出海11人返航,活下来的全是杀人凶手

猫眼观史
2025-04-12 22:22:52
成功返航!桑切斯激动哽咽说道:我必须要回来,我都要结婚了

成功返航!桑切斯激动哽咽说道:我必须要回来,我都要结婚了

新语爱八卦
2025-04-15 09:15:26
S妈透露具俊晔每天去墓地看大S,一家人很痛苦,汪小菲方辟谣断联

S妈透露具俊晔每天去墓地看大S,一家人很痛苦,汪小菲方辟谣断联

小seven的囧囧啊
2025-04-16 16:02:06
2025-04-16 16:47:00
人工智能研究 incentive-icons
人工智能研究
分享深度学习、CV、NLP
252文章数 125关注度
往期回顾 全部

科技要闻

华为问界M8售价公布:36.98万元起

头条要闻

外交部回应美对华加征245%关税

体育要闻

诺坎普奇迹的两位当事人,差点灵魂互换

娱乐要闻

娱乐圈的“现实”在岳云鹏身上应验了

财经要闻

一季度GDP同比增长5.4%!

汽车要闻

又帅又快超实用 极氪007GT猎装车才是完美的车?

态度原创

亲子
本地
健康
公开课
军事航空

亲子要闻

妹妹迎接两个哥哥回家,结果直接被无视

本地新闻

云游湖北 | 七仙女都爱的山水,双峰米酒一口上头

在中国,到底哪些人在吃“伟哥”?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

涉嫌泄密 美防长高级顾问被调查