网易首页 > 网易号 > 正文 申请入驻

超越GPT-4o!阿里发布最强开源多模态模型Qwen2-VL

0
分享至

克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

新的最强开源多模态大模型来了!

阿里Qwen2大模型家族新添多模态模型Qwen2-VL,在图像和长视频理解任务上双双取得了SOTA。

在具体的子类任务中,Qwen2-VL在大部分的指标上都达到了最优,甚至超过 GPT-4o等闭源模型。



在多模态能力的加持下,Qwen2-VL可以实时读取摄像头或电脑屏幕,进行文字形式的视频对话。

【视频请到公众号查看】

甚至还能作为Agent与环境进行交互,根据任务目标自主操控手机等设备。

【视频请到公众号查看】

此次发布的Qwen2共有2B、7B、72B三个版本,其中2B和7B版本已可下载并免费商用(Apache 2.0),72B则通过API提供。

目前开源代码已集成到Hugging Face Transformers、vLLM等第三方框架中。

还有不少网友都在狂cue一些知名大模型推理平台,如Groq、Ollama,希望能够早日提供支持。



下面就来一睹Qwen2-VL的表现!

会操作机械臂的多模态大模型

利用强大的多模态能力,Qwen2-VL能够操纵机械臂,进行物体的拿取、放置等操作。

【视频请到公众号查看】

还可以化身扑克牌玩家,根据识别到的场上信息和提示词描述进行“24点”游戏的决策,并且取得了胜利。



还有开头所展示的,Qwen2-VL可以根据识别到的屏幕内容,结合用户需求自行操作手机在网络上进行信息检索。

当然在这些体现工具调用和Agent交互能力的复杂任务背后,基础能力也是不能落下。

比如图像识别,在物体类的识别当中,Qwen2-VL可以准确地认出花的品种。



另一类识别场景是文字,Qwen2-VL支持多种语言的文本提取。

甚至把16种语言混合到一张图中,Qwen2-VL不仅能判断各自的语种,也能一口气提取出全部文本。



手写字体和复杂的数学公式也能识别,并且上下标这种微小细节处理得非常到位。



Qwen2-VL还支持多模态推理,代码和数学(包括几何)类问题,只需要传张图片就能解决。



视频方面,Qwen2-VL最长可以对20分钟以上的视频进行内容分析,既支持总结也能对细节进行提问。

不过目前还只能分析画面,暂不支持对声音的处理。

【视频请到公众号查看】



同时也支持实时视频文字对话,除了开头展示的基于摄像头的对话外,也可以读取电脑屏幕,作为对话的内容。

【视频请到公众号查看】

总之,在这些任务的背后,蕴含着Qwen2-VL不凡的综合实力。

多模态实力超GPT-4o

为了了解Qwen2-VL在各种任务上的综合表现,千问团队一共从从六个方面对其视觉能力进行了评估。

具体包括了综合类大学试题、数学试题、文档表格理解、通用场景下的问答、视频理解以及Agent能力这六种类型。

整体来看,Qwen2-72B的大部分的指标上都达到了最优,甚至超过了GPT-4o和Claude3.5-Sonnet,特别是在文档理解方面优势明显。



另外在多语言测试中,MTVQA也在9种语言中的8种全面超越了GPT-4o、Claude3-Opus和Gemini Ultra这些先进闭源模型,平均成绩也是最高分。



7B版本同样支持图像、多图、视频的输入,同时也达到了同等规模模型的SOTA水准。



最小的2B版本则主要为移动端设计,但麻雀虽小,却具备完整图像视频多语言的理解能力,特别在视频文档和通用场景问答相较同规模模型优势明显。



整体上,Qwen2-VL延续了其上一代Qwen-VL中ViT加Qwen(2)的串联结构,在三个不同规模的模型上,Qwen2-VL都采用了600M规模大小的ViT,并且支持图像和视频统一输入。

为了让模型更清楚地感知视觉信息和理解视频,Qwen2-VL新增了对原生动态分辨率的全面支持

与上一代模型相比,Qwen2-VL能够处理任意分辨率的图像输入,不同大小图片被转换为动态数量的tokens,最少只需要4个。

这种设计不仅确保了模型输入与图像原始信息之间的一致性,也模拟了人类视觉感知的自然方式,让模型在图像处理任务上更加灵活高效。



Qwen2-VL在架构上的另一项创新,是多模态旋转位置嵌入(M-ROPE)。

传统的旋转位置嵌入只能捕捉一维序列的位置信息,而M-ROPE通过将原始旋转嵌入分解为代表时间、高度和宽度的三个部分。

这使得大规模语言模型能够同时捕捉和整合一维文本序列、二维视觉图像以及三维视频的位置信息。

这一创新有助于提升模型的多模态处理和推理能力,能够更好地理解和建模复杂的多模态数据。



DEMO:
https://huggingface.co/spaces/Qwen/Qwen2-VL
项目主页:
https://qwenlm.github.io/blog/qwen2-vl/
GitHub:
https://github.com/QwenLM/Qwen2-VL

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
正部级干部履新!此前担任安徽省委书记

正部级干部履新!此前担任安徽省委书记

鲁中晨报
2024-09-13 20:20:09
做局收礼事件真实原因揭秘:为加快留学资料申请速度

做局收礼事件真实原因揭秘:为加快留学资料申请速度

金牌娱乐
2024-09-14 09:37:00
河北发生爆炸!

河北发生爆炸!

掌中邯郸
2024-09-14 11:06:59
国羽全胜,2号种子爆冷输球,奥运冠军出局,决赛对阵及赛程出炉

国羽全胜,2号种子爆冷输球,奥运冠军出局,决赛对阵及赛程出炉

求球不落谛
2024-09-15 01:42:13
王毅强力发声:台湾必将回归!美国不敢出兵乌克兰,却敢出兵台海

王毅强力发声:台湾必将回归!美国不敢出兵乌克兰,却敢出兵台海

星辰故事屋
2024-09-10 19:41:23
《再见爱人4》来了!观察室阵容太惊喜,三对夫妻保密!

《再见爱人4》来了!观察室阵容太惊喜,三对夫妻保密!

圈里的甜橙子
2024-09-14 17:15:06
官网被抢崩、部分型号秒没,谁在抢购iPhone 16?

官网被抢崩、部分型号秒没,谁在抢购iPhone 16?

钛媒体APP
2024-09-14 11:28:18
2500多万人放弃医保,国家出手了!

2500多万人放弃医保,国家出手了!

保德全
2024-09-11 19:00:02
山东男子魏新标被捕,20名留守妇女哭诉经历,令人发指

山东男子魏新标被捕,20名留守妇女哭诉经历,令人发指

莉雅细细谈
2024-07-27 21:53:44
门店全关!这家曾排队2小时、有17年历史的火锅店,也撑不住了?

门店全关!这家曾排队2小时、有17年历史的火锅店,也撑不住了?

品牌观察官
2024-09-14 18:10:27
徐州市委原书记到底有多遭人恨!

徐州市委原书记到底有多遭人恨!

梦马笔谈
2024-09-14 18:50:00
48小时警戒! 停航停运! 台风逼近申城, 狂风暴雨将袭…上海迪士尼紧急提醒

48小时警戒! 停航停运! 台风逼近申城, 狂风暴雨将袭…上海迪士尼紧急提醒

鲁中晨报
2024-09-14 13:04:22
禁书之首《灯草和尚》,除了性描写污秽不堪,它还有哪些价值?

禁书之首《灯草和尚》,除了性描写污秽不堪,它还有哪些价值?

印象逍遥子
2024-09-14 10:02:01
央美90岁院长与46岁娇妻出席活动!女方穿紧身裙,气质出众很惹眼

央美90岁院长与46岁娇妻出席活动!女方穿紧身裙,气质出众很惹眼

缘浅娱深
2024-09-14 10:24:14
破门+造点!维尼修斯社媒晒手指队徽照庆祝胜利

破门+造点!维尼修斯社媒晒手指队徽照庆祝胜利

直播吧
2024-09-15 05:57:20
作家李楠枫差评《沁园春.雪》,下品、俗气、生硬、不入流!

作家李楠枫差评《沁园春.雪》,下品、俗气、生硬、不入流!

杨哥历史
2024-09-12 14:12:36
三观扭曲!林诗栋赢球不值得鼓励?非要给拜鬼的张本智和加油?

三观扭曲!林诗栋赢球不值得鼓励?非要给拜鬼的张本智和加油?

阿牛体育说
2024-09-14 06:19:58
导弹都已经通电!央视披露:长沙舰以一敌三,对峙47小时不落下风

导弹都已经通电!央视披露:长沙舰以一敌三,对峙47小时不落下风

说天说地说实事
2024-09-14 20:42:20
这次,傍过6个富婆的于适,“底裤”都被扒光了,他不止服务女人

这次,傍过6个富婆的于适,“底裤”都被扒光了,他不止服务女人

娱乐八卦木木子
2024-09-14 05:33:34
知名演员海清最新采访整张脸大变样,网友:不听声音都认不出来了

知名演员海清最新采访整张脸大变样,网友:不听声音都认不出来了

小米亚的故事
2024-09-14 18:35:04
2024-09-15 06:28:49
量子位
量子位
追踪人工智能动态
9955文章数 175517关注度
往期回顾 全部

科技要闻

华为三折叠,炸出570万"黄牛"

头条要闻

媒体:62岁周铁根被查 其施政经历在江苏官场上属少见

头条要闻

媒体:62岁周铁根被查 其施政经历在江苏官场上属少见

体育要闻

男篮这俩18岁黑小伙,可真别吹了……

娱乐要闻

陆虎陈曌旭婚礼现场照 中式婚服太唯美

财经要闻

美提高部分中国商品的301关税 中方回应

汽车要闻

再上昆仑 全新福特探险者上市 售30.98万元起

态度原创

健康
教育
本地
游戏
艺术

炉甘石洗剂,凭啥成了止痒全能王?

教育要闻

为什么很多家长把义务教育理解成了免费教育?学校不应该收一分钱

本地新闻

官宣!亚洲顶级赛事定档成都!四川远达美乐代表出战!

玩家通关《星战亡命徒》打5.5分:重复性高且颇受局限

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

无障碍浏览 进入关怀版