网易首页 > 网易号 > 正文 申请入驻

阿里QVQ-Max来了!超绝视觉推理模型,会看网课学编程,免费可用

0
分享至

智东西3月28日报道,阿里大模型表情包军团再添猛将!今日凌晨,大模型“劳模”阿里云通义团队发布其首款视觉推理模型QVQ-Max

在数学问题、生活常识、编程代码、艺术创作等场景,该模型可以看懂图片和视频里的内容,还能结合这些信息进行分析、推理,并给出解决方案

例如,QVQ-Max可以协助用户在工作中完成数据分析、信息整理、编程写代码等任务,帮助学生解答配有图表的数学、物理等科目的难题,并通过直观的方式讲解复杂概念,在生活中根据衣柜照片推荐穿搭方案、基于食谱图片指导用户烹饪

用户只需上传任何图像或视频然后提出问题,点击 “思考 ”按钮,即可查看它如何逐步处理视觉信息。

多模态数学问题的数据集MathVision可以用来评估模型解决复杂数学问题的能力,研究人员发现,模型思考的token数越长,其MathVision的准确度就会越高。

博客中提到,他们设计QVQ-Max的目标,就是让它成为一个既“眼尖”又“脑快”的助手,帮助用户解决各种实际问题。

体验地址:https://chat.qwen.ai/ 一、秀多图识别、数学推理、看视频学习编程技能

阿里通义团队在博客中放出了几个新鲜的QVQ-Max演示案例。

首先是多图识别,QVQ-Max可以描述图片中的景色,并且通过分析图片信息找到这两张图片的相关之处。

其次是数学推理,这道难题需要模型从图片中找问题和答案,QVQ-Max通过分析其余8个数字之间的关系,得出了最后一格的数字应该是10的正确答案。

第三个是让QVQ-Max看手相,感情线、生命线、事业线分析得头头是道。

第四个考验了模型的视频理解能力,演示中模型对一个简笔画的蜗牛视频进行了分析,然后为这条视频创建了贴合的字幕。

二、观察细致入微、深入分析,还能灵活创作

QVQ-Max的能力可以总结为三个方面:细致观察、深入推理和灵活应用

细致观察方面,QVQ-Max能快速识别出复杂图表、日常随手拍照片中的关键元素,例如它可以找到图片中有哪些物品、有什么文字标识等。

深入推理就是让模型基于看到的内容进行分析,然后结合背景知识得出结论。例如,在一道几何题中,它可以根据题目附带的图形推导出答案;在一段视频里,它能根据画面内容推测出接下来可能发生的情节。

除了分析和推理,QVQ-Max还可以灵活应用这些能力进行创作,例如帮助用户设计插画、生成短视频脚本、创作角色扮演的内容,或者化身评论家、占卜师。

这使得其在用户工作、学习、生活中的应用场景增多。

一般而言,大模型在回答问题、写文章、生成代码时主要依赖文字输入。

但现实生活中,很多信息并不只是用文字表达,而是图片、图表、视频、文字交互出现,并且图片中包含的信息会比文字更直观、更复杂,如其中的颜色、形状、位置关系等。例如用户分析建筑图纸时,仅靠文字描述是无法判断其合理性的,需要结合图纸以及专业知识分析,这也是阿里通用团队研究视觉推理模型的原因。

结语:视觉推理模型的演进方向:更准确观察、视觉Agent、交互多元

目前发布的QVQ-Max是阿里通义视觉推理模型的第一版,未来,研究人员会重点关注以下几个方向:通过视觉内容的校验来检查观察内容的准确性提高识别能力;通过视觉Agent提升模型在处理多步和更复杂的任务,如手机电脑操控,玩游戏;让模型在思考和交互中不局限于文字,还可以涵盖更多的模态,比如工具校验,视觉生成等。

作为一款能看懂又能深度推理的视觉模型,QVQ-Max已经展现出了完成创造性任务的应用潜力。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
最后关头,特朗普变卦没有签字,中方已收到消息,美国不想当老二

最后关头,特朗普变卦没有签字,中方已收到消息,美国不想当老二

黑鹰观军事
2026-05-24 01:16:17
暴雨红色预警!武汉:停止集会、停课、停业

暴雨红色预警!武汉:停止集会、停课、停业

齐鲁壹点
2026-05-24 12:17:48
凌晨,天津一地突发恶劣事件!

凌晨,天津一地突发恶劣事件!

天津族
2026-05-25 07:34:29
毛远新透露,毛主席最后的遗嘱应该只有9个字

毛远新透露,毛主席最后的遗嘱应该只有9个字

历史伟人录
2024-09-27 13:44:11
权色交易、陪睡上位,她根本不沾边,简直是娱圈的一股“清流”

权色交易、陪睡上位,她根本不沾边,简直是娱圈的一股“清流”

枯蝶
2026-05-16 11:38:52
故事:赖昌星自白:我风流一生,但心里只住过两个人,她胜过结发妻子

故事:赖昌星自白:我风流一生,但心里只住过两个人,她胜过结发妻子

萧竹轻语
2025-11-03 17:25:34
中国科学院院士周成虎,被当众带走调查!

中国科学院院士周成虎,被当众带走调查!

高分子科学前沿
2026-05-23 15:07:18
最佳二阵5人场均26+!一阵有多强?三阵争议最大,华子成最大遗珠

最佳二阵5人场均26+!一阵有多强?三阵争议最大,华子成最大遗珠

你的篮球频道
2026-05-25 08:30:32
德佬嘲讽国米,孔蒂现场回怼:国米配得上冠军;人家做的比我们多

德佬嘲讽国米,孔蒂现场回怼:国米配得上冠军;人家做的比我们多

懂球帝
2026-05-25 08:17:50
朝鲜突然大规模裁军

朝鲜突然大规模裁军

回京历史梦
2026-05-23 16:32:30
山西一地干部任前公示

山西一地干部任前公示

山西晚报
2026-05-25 10:03:35
故事:女子鹤岗买120平房子养老,10年后回去,屋内景象让她愣住

故事:女子鹤岗买120平房子养老,10年后回去,屋内景象让她愣住

白云故事
2024-12-09 19:05:03
普京失望而返,谈了二十年都没戏,中国这次要俄认清一个事实

普京失望而返,谈了二十年都没戏,中国这次要俄认清一个事实

阿库财经
2026-05-24 23:24:15
因生不出孩子被踢出豪门,却二婚后儿女双全,陈法拉终于扬眉吐气

因生不出孩子被踢出豪门,却二婚后儿女双全,陈法拉终于扬眉吐气

最美的笔触
2026-05-23 17:11:22
本·阿弗莱克与前妻穿情侣装出街,离婚7年仍默契

本·阿弗莱克与前妻穿情侣装出街,离婚7年仍默契

自愈小日子
2026-05-24 00:56:02
男子买一万块榴莲错付了11万,几个月才发现,商家称早已退款,男子:有人冒充我接受了退款,调查结果太意外

男子买一万块榴莲错付了11万,几个月才发现,商家称早已退款,男子:有人冒充我接受了退款,调查结果太意外

背包旅行
2026-05-24 17:30:02
教你一个玄学法则:当你的孩子主动给你买衣服、买吃的,或者主动给你发红包,不管你缺不缺钱,有多心疼孩子赚钱辛苦,你都要欣然的收下

教你一个玄学法则:当你的孩子主动给你买衣服、买吃的,或者主动给你发红包,不管你缺不缺钱,有多心疼孩子赚钱辛苦,你都要欣然的收下

心理观察局
2026-05-13 09:18:07
比油车“集体降价”更可怕的是:经销商都开始加速叛变了!

比油车“集体降价”更可怕的是:经销商都开始加速叛变了!

刘哥谈体育
2026-05-25 01:44:10
德泽尔比:今天这场比赛也许是我执教以来,球员踢得最精彩的

德泽尔比:今天这场比赛也许是我执教以来,球员踢得最精彩的

懂球帝
2026-05-25 02:09:59
令人唏嘘!一个时代结束了!没有詹姆斯,没有库里,杜兰特成独苗

令人唏嘘!一个时代结束了!没有詹姆斯,没有库里,杜兰特成独苗

萌兰聊个球
2026-05-25 09:18:41
2026-05-25 10:51:00
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
11886文章数 117083关注度
往期回顾 全部

科技要闻

华为发表半导体演进新定律

头条要闻

重庆农家乐3000多斤特色鱼几乎全被洪水冲走 老板发声

头条要闻

重庆农家乐3000多斤特色鱼几乎全被洪水冲走 老板发声

体育要闻

如果不好好守门,他可能早就继承家业了

娱乐要闻

洪涛回应歌手淘汰庾澄庆:难以理喻

财经要闻

退市!33年“A股不死鸟”落幕

汽车要闻

国民家轿再上新 帝豪向上系列限时5.59万起

态度原创

教育
亲子
家居
游戏
公开课

教育要闻

差等差数列,一个视频学会!

亲子要闻

福州儿童/青少年配眼镜深度推荐:拒绝“模板化”,科学护航孩子的“远视储备”

家居要闻

低调传承 温润沉静

《哥特王朝》重制版补丁引批评 官方回应无需联网游玩

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版