网易首页 > 网易号 > 正文 申请入驻

通义千问开源视觉语言模型 Qwen2-VL,可理解 20 分钟以上视频

0
分享至

整理 | 褚杏娟

2023 年 8 月,通义千问开源第一代视觉语言理解模型 Qwen-VL,成为开源社区最受欢迎的多模态模型之一。短短一年内,模型下载量突破 1000 万次。目前,多模态模型在手机、车端等各类视觉识别场景的落地正在加速,开发者和应用企业也格外关注 Qwen-VL 的升级迭代。

相比上代模型,Qwen2-VL 的基础性能全面提升,可以读懂不同分辨率和不同长宽比的图片,在 DocVQA、RealWorldQA、MTVQA 等基准测试创下全球领先的表现;可以理解 20 分钟以上长视频,支持基于视频的问答、对话和内容创作等应用;具备强大的视觉智能体能力,可自主操作手机和机器人,借助复杂推理和决策的能力,Qwen2-VL 可以集成到手机、机器人等设备,根据视觉环境和文字指令进行自动操作;能理解图像视频中的多语言文本,包括中文、英文,大多数欧洲语言,日语、韩语、阿拉伯语、越南语等。

通义千问团队从六个方面评估了模型能力,包括综合的大学题目、数学能力、文档表格多语言文字图像的理解、通用场景问答、视频理解、Agent 能力。Qwen2-VL-7B 以其“经济型”参数规模实现了极具竞争力的性能表现;Qwen2-VL-2B 则可支持移动端的丰富应用,同样具备完整图像视频多语言的理解能力,在视频文档和通用场景问答方面,相比同规模模型优势显著。

测试表现

  • 视频理解与实时聊天

  • Visual Agent 能力:函数调用和视觉交互

  • 视觉推理

用户:请告诉我从 Ruka 的生日到 Yuki 的生日有多少天?仔细地一步步思考。

Qwen2-VL:

要确定 Ruka 和 Yuki 生日之间的天数,我们需要计算他们各自生日日期之间的差异。 1、Ruka 的生日是在 6 月 24 日。 2、Yuki 的生日是在 9 月 17 日。 让我们一步步来计算: 1. 从 6 月 24 日到 6 月 30 日: 从 6 月 24 日到 6 月 30 日共有 6 天。 2. 从 7 月 1 日到 8 月 31 日: 7 月有 31 天。 8 月有 31 天。 7 月和 8 月总共有 31 + 31 = 62 天。 3. 从 9 月 1 日到 9 月 17 日: 从 9 月 1 日到 9 月 17 日共有 17 天。 现在我们将所有的天数加起来: 从 6 月 24 日到 6 月 30 日:6 天 从 7 月 1 日到 8 月 31 日:62 天 从 9 月 1 日到 9 月 17 日:17 天 总天数 = 6 + 62 + 17 = 85 天 因此,Ruka 和 Yuki 的生日之间共有 85 天。
  • 更细节的识别理解

用户:转录图中内容,并识别图中每段内容的语言。

Qwen2-VL:

汉语,也称为“华语”。是中国使用人数最多的语言,也是世界上作为第一语言使用人数最多的语言。是中华优秀传统文化的重要载体。繁体字,又稱為“繁體中文”,與“簡化字”/“簡體字”相對。一般是指漢字簡化運動被簡化字所代替的漢字。 语言:中文 日本語は地方ごとに多様な方言があり、とりわけ琉球諸島で方言差が著しい。 语言:日语 한국어(韓國語), 조선말(朝鮮말)는 대한민국과 조선민주주의인민공화국의 공용어이다. 둘은 표기나 문법에서는 차이가 없지만 동사 어미나 표현에서 차이가 있다. 语言:韩语 Le français est une langue indo-européenne de la famille des langues romanes dont les locuteurs sont appelés « francophones ». 语言:法语 El español o castellano es una lengua romance procedente del latín hablado, perteneciente a la familia de lenguas indoeuropeas. 语言:西班牙语 A língua portuguesa, também designada português, é uma língua indo-europeia românica flexiva ocidental originada no galego-português falado no Reino da Galiza e no norte de Portugal. 语言:葡萄牙语 Is ceann de na teangacha Ceilteacha í an Ghaeilge (nó Gaeilge na hÉireann mar a thugtar uirthi corruair), agus ceann de na trí cinn de theangacha Ceilteacha ar a dtugtar na teangacha Gaelacha (Gaeilge, Gaeilge Mhanann agus Gaeilge na hAlban) go háirithe. 语言:爱尔兰语 English is a West Germanic language in the Indo-European language family, whose speakers, called Anglophones, originated in early medieval England on the island of Great Britain. 语言:英语 Die deutsche Sprache bzw. Deutsch ist eine westgermanische Sprache, die weltweit etwa 90 bis 105 Millionen Menschen als Muttersprache und weiteren rund 80 Millionen als Zweit- oder Fremdsprache dient. 语言:德语 Język polski, polszczyzna — język z grupy zachodniosłowiańskiej (do której należą również czeski, kaszubski, słowacki, języki łużyckie czy wymarły język drzewiański), stanowiącej część rodziny indoeuropejskiej. 语言:波兰语 Η ελληνική γλώσσα ανήκει στην ινδοευρωπαϊκή οικογένεια και αποτελεί το μοναδικό μέλος του ελληνικού κλάδου. 语言:希腊语 Tiếng Việt hay Việt ngữ là một ngôn ngữ thuộc ngữ hệ Nam Á, được công nhận là ngôn ngữ chính thức tại Việt Nam. 语言:越南语 Монгол хэл нь Монгол улсын албан ёсны хэл юм. 语言:蒙古语 Число владеющих русским языком в России составляет 137,5 млн человек (2010). Всего в мире на русском говорят 258,2 млн человек (2022) 语言:俄语 हिन्दी विश्व की एक प्रमुख भाषा है और भारत की एक राजभाषा है। केन्द्रीय स्तर पर भारत में सह-आधिकारिक भाषा अंग्रेज़ी है। 语言:印地语 Kiswahili ni lugha ya Kibantu yenye misamiati mingi ya Kiarabu (35%), lakini sasa ya Kiingereza pia (10%), inayozungumzwa katika eneo kubwa la Afrika ya Mashariki. 语言:斯瓦希里语

架构改进

Qwen2-VL 延续了 ViT 加 Qwen2 的串联结构,三个尺寸的模型都采用了 600M 规模大小的 ViT,支持图像和视频统一输入。研发团队还在架构上作了两大改进:

一是实现了对原生动态分辨率的全面支持,不同于上代模型,Qwen2-VL 能够处理任意分辨率的图像输入,这一设计模拟了人类视觉感知的自然方式,赋予模型处理任意尺寸图像的强大能力;

二是使用了多模态旋转位置嵌入(M-ROPE)方法,传统的旋转位置嵌入只能捕捉一维序列的位置信息,M-ROPE 使得大规模语言模型能够同时捕捉和整合一维文本序列、二维视觉图像以及三维视频的位置信息,赋予了语言模型强大的多模态处理和推理能力,能让模型更好地理解和建模复杂的多模态数据。

目前,通义千问团队以 Apache 2.0 协议开源了 Qwen2-VL-2B 和 Qwen2-VL-7B,开源代码已集成到 Hugging Face Transformers、vLLM 和其他第三方框架中。开发者可以通过 Hugging Face 和魔搭 ModelScope 下载使用模型,也可通过通义官网、通义 APP 的主对话页面使用模型。

GitHub:https://github.com/QwenLM/Qwen2-VL

HuggingFace:https://huggingface.co/collections/Qwen/qwen2-vl-66cee7455501d7126940800d

魔搭 ModelScope:https://modelscope.cn/organization/qwen?tab=model

模型体验:https://huggingface.co/spaces/Qwen/Qwen2-VL

内容推荐

2024年8月18-19日,AICon 全球人工智能开发与应用大会·上海站成功举办,汇聚超过60位大模型行业先锋,全方位剖析大模型训练与推理机制、多模态融合、智能体Agent前沿进展、检索增强(RAG)生成策略、端侧模型优化与应用等热点内容。经过嘉宾授权,「AI前线」为你独家整理了一份演讲PPT合集,不容错过。关注「AI前线」,回复关键词「PPT」免费获取。

会议推荐

InfoQ 将于 10 月 18-19 日在上海举办 QCon 全球软件开发大会 ,覆盖前后端 / 算法工程师、技术管理者、创业者、投资人等泛开发者群体,内容涵盖当下热点(AI Agent、AI Infra、RAG 等)和传统经典(架构、稳定性、云原生等),侧重实操性和可借鉴性。现在大会已开始正式报名,可以享受 8 折优惠,单张门票立省 960 元(原价 4800 元),详情可联系票务经理 17310043226 咨询。

今日荐文

你也「在看」吗?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
唐嫣素颜进幼儿园!6岁女儿戴皇冠萌翻全场,罗晋全程冷脸零互动

唐嫣素颜进幼儿园!6岁女儿戴皇冠萌翻全场,罗晋全程冷脸零互动

优墨出品
2026-05-30 08:57:35
京东618开门红4小时战报出炉:iPhone 1分钟破亿、华为手机10分钟增超5倍

京东618开门红4小时战报出炉:iPhone 1分钟破亿、华为手机10分钟增超5倍

快科技
2026-05-31 09:34:18
宇树机器人被批只是“遥控大玩具”,一代人有一代人的皮影戏

宇树机器人被批只是“遥控大玩具”,一代人有一代人的皮影戏

可达鸭面面观
2026-05-27 16:35:44
奉劝所有人:退休后,跟别人关系再好,一日游、二日游都行,但千万别尝试长时间一起游,否则早晚会后悔

奉劝所有人:退休后,跟别人关系再好,一日游、二日游都行,但千万别尝试长时间一起游,否则早晚会后悔

背包旅行
2026-05-28 18:04:35
拉夫罗夫:莫斯科将把所有历史上的俄罗斯土地归还其合法家园

拉夫罗夫:莫斯科将把所有历史上的俄罗斯土地归还其合法家园

旧窗老街
2026-02-23 01:50:19
杨受成“霸占”容祖儿半生:不娶也不放,她到底图什么?

杨受成“霸占”容祖儿半生:不娶也不放,她到底图什么?

橙星文娱
2026-05-12 15:17:44
人类灭绝已成定局?科学家算出人类灭绝日期,我们还能幸存多久?

人类灭绝已成定局?科学家算出人类灭绝日期,我们还能幸存多久?

蜉蝣说
2026-05-28 19:49:46
媒体人:广厦无法匹配张镇麟的强度,上海阵容厚度优势让人绝望

媒体人:广厦无法匹配张镇麟的强度,上海阵容厚度优势让人绝望

懂球帝
2026-05-31 22:44:31
颠覆认知!近2万人研究:每周一次性生活,男性癌症风险降低69%

颠覆认知!近2万人研究:每周一次性生活,男性癌症风险降低69%

科技虎虎
2026-05-31 10:09:27
“都把儿子养雌化了!”初中男孩出现雌化现象,家长却执迷不悟

“都把儿子养雌化了!”初中男孩出现雌化现象,家长却执迷不悟

妍妍教育日记
2026-05-29 07:55:13
电车的“免费午餐”结束了:养路费改革的必然与公平

电车的“免费午餐”结束了:养路费改革的必然与公平

民间胡扯老哥
2026-05-30 06:39:32
上海一同学聚会吃了43万6,请客的人先行离开,剩下的人当场翻脸

上海一同学聚会吃了43万6,请客的人先行离开,剩下的人当场翻脸

萧竹轻语
2025-06-11 17:21:59
生育大局已定:不出意外的话,从2026年起中国人口将迎来3大变化

生育大局已定:不出意外的话,从2026年起中国人口将迎来3大变化

墨兰史书
2026-06-01 03:20:03
老人最适合吃的高蛋白,虾肉只排第四,第一名很多人都不知道!

老人最适合吃的高蛋白,虾肉只排第四,第一名很多人都不知道!

健康科普365
2026-05-28 19:04:58
给力,克劳福德透露波波维奇关于文班亚马的“金句”,改变了一切

给力,克劳福德透露波波维奇关于文班亚马的“金句”,改变了一切

好火子
2026-06-01 04:48:25
随着雷霆3-4出局,NBA总决赛确定:马刺vs尼克斯!总冠军预测如下

随着雷霆3-4出局,NBA总决赛确定:马刺vs尼克斯!总冠军预测如下

小火箭爱体育
2026-05-31 11:29:29
孔蒂助教斯泰利尼回击德布劳内:你应该学学莫德里奇

孔蒂助教斯泰利尼回击德布劳内:你应该学学莫德里奇

懂球帝
2026-06-01 07:10:29
卫冕失败!亚历山大空砍35+9功亏一篑 两连庄MVP却无缘两连冠

卫冕失败!亚历山大空砍35+9功亏一篑 两连庄MVP却无缘两连冠

醉卧浮生
2026-05-31 10:49:15
梭哈字母哥!开拓者豪赌筹码曝光:杨瀚森等4人+3首轮 归还互换权

梭哈字母哥!开拓者豪赌筹码曝光:杨瀚森等4人+3首轮 归还互换权

林子说事
2026-05-31 12:17:41
洪秀全选妃有多苛刻?不但要求容貌漂亮,还有一要求令女性难接受

洪秀全选妃有多苛刻?不但要求容貌漂亮,还有一要求令女性难接受

铭记历史呀
2026-06-01 02:23:45
2026-06-01 08:08:49
AI前线 incentive-icons
AI前线
面向AI爱好者、开发者和科学家,提供AI领域技术资讯。
1534文章数 152关注度
往期回顾 全部

科技要闻

戴尔诺基亚又回来了!AI重估老牌科技公司

头条要闻

媒体:中国防长不去"香会" 主办方的意图落空了

头条要闻

媒体:中国防长不去"香会" 主办方的意图落空了

体育要闻

阿森纳用最悲壮的方式,成就了巴黎王朝

娱乐要闻

朱军退休,正义虽迟但到,女方受惩

财经要闻

网红驱蚊产品,标注化妆品竟含农药成分

汽车要闻

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

艺术
家居
健康
时尚
房产

艺术要闻

李讷刘思齐邵华童年照曝光!"红二代"狂草热榜,大草为何难写好?

家居要闻

云栖 舒展如流云

尝试干细胞疗法如何避免踩坑?

梓渝:慢下来,也很好

房产要闻

红动五月!全国抢入核心资产,广州盯紧凯旋新世界!

无障碍浏览 进入关怀版