网易首页 > 网易号 > 正文 申请入驻

7B模型搞定AI视频通话,阿里最新开源炸场,看听说写全模态打通

0
分享至

西风 明敏 发自 凹非寺
量子位 | 公众号 QbitAI

深夜重磅!阿里发布并开源首个端到端全模态大模型——

通义千问Qwen2.5-Omni-7B,来了。

仅靠一个一体式模型,就能搞定文本、音频、图像、视频全模态,并实时生成文本和自然语音。

堪称7B模型的全能冠军。

你的iPhone搭载的很可能就是它!

现在打开Qwen Chat,就能直接和它实时进行视频或语音交互:

话不多说,先来看一波能力展示。

在大街上同它视频通话,它能正确识别周围环境,按照你的需求为你推荐餐馆:

视频链接:https://mp.weixin.qq.com/s/VkJP89bpgZaxaKz-1wav9A

走进厨房,它又化身“智能菜谱”,一步步指导你变成大厨:

视频链接:https://mp.weixin.qq.com/s/VkJP89bpgZaxaKz-1wav9A

在多模态任务OmniBench评测中,Qwen2.5-Omni表现刷新记录拿下新SOTA,远超谷歌Gemini-1.5-Pro等同类模型。

在单模态的语音识别、翻译、音频理解、图像推理、视频理解、语音生成任务中,Qwen2.5-Omni的全维度表现也都优于类似大小的单模态模型以及闭源模型。

在seed-tts-eval语音生成基准中,Qwen2.5-Omni展现出与人类水平相当的语音合成能力。

这意味着Qwen2.5-Omni-7B能很好地和世界进行实时交互,甚至能轻松识别音视频情绪。

再来敲重点:

模型非常轻量,手机等终端都可轻松部署运行,且开源用的是宽松的Apache2.0协议,开发者、企业现在都可免费在魔搭社区或Hugging Face下载商用

Qwen2.5-Omni-7B一开源,网友直呼这才是真正的OpenAI(doge)。

网友纷纷表示可以直接拿来装到智能眼镜上了:

这可能是智能眼镜的完美模型。

7B模型的新纪录!

目前,在Qwen Chat上即可体验该模型支持的AI语音和视频通话功能。

更多实例,一起来看~

实测效果惊艳

首先,Qwen2.5-Omni-7B能胜任免费的数学家教。

它能像人类老师一样,看到题目、听懂问题,并且一步一步耐心讲解。

视频链接:https://mp.weixin.qq.com/s/VkJP89bpgZaxaKz-1wav9A

更复杂的论文它也看得懂。

只需共享屏幕,然后将论文从上至下滑动,“给它看一遍”。

它就能通俗解释论文内容。

比如PPT、网页资料等,也能找它做讲解。

而且它还有一定艺术见解,比如可以陪着你画画,然后给出指导建议。

或者听你演奏的音乐,给出更好的改进建议。

我们还进行了一手实测,在Qwen Chat上每天可使用语音和视频聊天10次。

实测中,模型能很好地理解商品界面和优惠政策。

响应速度也很快,并且会引导人类继续问下去、很有耐心。

需要注意的是,当前视频通话还只是Beta测试版,每次通话限时3分钟。

视频链接:https://mp.weixin.qq.com/s/VkJP89bpgZaxaKz-1wav9A

Hugging Face的产品负责人Jeff Boudier也第一时间上手试玩。

模型的英文能力一样出众,而且它不仅回答看到了杯子,还细致描述了杯子上的笑脸花纹。

视频链接:https://mp.weixin.qq.com/s/VkJP89bpgZaxaKz-1wav9A

首创Thinker-Talker双核架构

目前官方已放出Qwen2.5-Omni技术Blog和论文。

Qwen2.5-Omni采用通义团队首创的全新架构——Thinker-Talker双核架构

其中,Thinker就像“大脑”,负责处理和理解来自文本、音频、视频等多模态的输入信息,生成高层语义表征以及对应的文本内容。

Talker则更像“嘴巴”,以流式的方式接收由Thinker实时输出的语义表征与文本,并流畅地合成离散语音tokens。

具体来说,Thinker基于Transformer解码器架构,融合音频/图像编码器进行特征提取。

而Talker采用双轨自回归Transformer解码器设计,在训练和推理过程中直接接收来自Thinker的高维表征,并共享Thinker的全部历史上下文信息。因此,整个架构作为一个紧密结合的单一模型运行,支持端到端的训练和推理。

与此同时,团队还提出了一种新的位置编码算法TMRoPE(Time-aligned Multimodal RoPE)以及Position Embedding(位置嵌入)融合音视频技术

TMRoPE编码多模态输入的三维位置信息,即多模态旋转位置嵌入(M-RoPE),并结合绝对时间位置,通过将原始旋转嵌入分解为时间、高度和宽度三个部分实现。

另外值得一提的是,从技术层面来看,Qwen2.5-Omni和一般的视频/语音理解模型以及其相应的视频/语音对话的AI功能,也有本质性区别。

在传统语音理解大模型的人机交互场景里,一般运用 ASR(Automatic Speech Recognition,自动语音识别)技术,把人类语音转换为文字文本,随后将其交给大语言模型处理,最终生成的内容借助 TTS(Text-to-Speech,语音合成)技术转化为语音反馈给用户。

而视频理解模型是基于图片、视频进行大模型理解,并以文字形式输出反馈。

这两种模型均属于相互独立的单链路模型。在一些AI应用中,甚至会串联多个模型来实现类似功能,如此一来,链路变得更长,效率大打折扣。

Qwen2.5-Omni-7B的特点在于,它原生支持视频、图片、语音、文字等多模态输入,并能原生生成语音及文字等多模态输出

也就是说,一个模型就能通过“看”、“听”、“阅读”等多种方式来综合思考。

所以Qwen2.5-Omni得以在一系列同等规模的单模态模型权威基准测试中,拿下最强全模态性能,在语音理解、图片理解、视频理解、语音生成等领域的测评分数,均领先于专门的音频(Audio)或视觉语言(VL)模型。

抢先看到Apple Intelligence?

一个月前,阿里公开确认与苹果合作,宣布通义千问将为国行iPhone用户提供AI功能,此消息一经披露,便在科技圈引发热议。

而这次Qwen2.5-Omni开源,就是奔着端侧部署来的,7B尺寸使其具备直接嵌入手机的可行性,仿佛提前看到了Apple Intelligence,让大家看到多模态大模型上手机都能有哪些效果。

不只是苹果,据量子位了解,这种端侧部署能力已吸引超90%国产手机品牌接入通义千问,包括OPPO、vivo、荣耀、传音等,还有众多汽车品牌、AI硬件产品选择与之携手。

为啥都选通义千问?

梳理通义千问的最新发展动态,答案便不难理解。

首先,通义千问Qwen目前已稳居全球最大AI大模型族群。

仅在最近一个月的时间里,就接连推出了一系列具有竞争力的模型:推理模型Max旗舰版QwQ-Max-Preview、视频生成模型Wan 2.1、推理模型QwQ-32B、视觉语言模型Qwen2.5-VL-32B-Instruct……

实际上,2023年至今,阿里通义团队已累计开源200多款模型,涵盖从0.5B到110B全尺寸范围,模型类型覆盖文本生成、视觉理解与生成、语音理解与生成、文生图及视频模型等全模态领域,应用场景也极为丰富。

在海内外开源社区中,通义千问Qwen衍生模型数量更是一路飙升,现已超过10万,超越Llama系列。

根据Hugging Face 在2月10日发布的最新全球开源大模型榜单,排名前十的开源大模型无一例外,全部是基于通义千问Qwen开源模型二创的变体模型。

其次,阿里巴巴通过开源等一系列积极举措,成功构建起一个丰富且活跃的大模型生态。

阿里不仅将开源进行到底,更向大模型公司提供了全方位的服务支持,其中包括算力资源以及开发工具等,阿里云已成为中国大模型领域的公共AI算力底座。

截至2025年2月中旬,阿里魔搭社区ModelScope的模型总量已超4万个,服务超1000万开发者。

那么通义千问Qwen团队下一步要干啥?

期待听到您的反馈,并看到您使用Qwen2.5-Omni开发的创新应用。
在不久的将来,将着力增强模型对语音指令的遵循能力,并提升音视频协同理解能力。还将持续拓展多模态能力边界,发展全面的通用模型。

感兴趣的友友不如一起来上手试试吧~

Qwen Chat:https://chat.qwenlm.ai

Hugging Face:https://huggingface.co/Qwen/Qwen2.5-Omni-7B

ModelScope:https://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B

DashScope:https://help.aliyun.com/zh/model-studio/user-guide/qwen-omni

GitHub:https://github.com/QwenLM/Qwen2.5-Omni

Demo体验:https://modelscope.cn/studios/Qwen/Qwen2.5-Omni-Demo

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
芯片松绑4个月,中国一块也没买,中国不急美国急,形势反转了

芯片松绑4个月,中国一块也没买,中国不急美国急,形势反转了

王新喜
2026-04-23 20:37:56
校庆我捐700万被安排在角落,我愣了3秒,校长道:不坐就走不差你

校庆我捐700万被安排在角落,我愣了3秒,校长道:不坐就走不差你

吃货的分享
2026-04-22 20:30:21
英特尔美股盘后涨幅扩大至18%

英特尔美股盘后涨幅扩大至18%

每日经济新闻
2026-04-24 05:27:07
央视小尼离婚后单身至今,原因曝光:不是放不下前妻,是放不下她

央视小尼离婚后单身至今,原因曝光:不是放不下前妻,是放不下她

翰飞观事
2026-04-10 14:59:12
一鸡爆火,老板直接累瘫了

一鸡爆火,老板直接累瘫了

南风窗
2026-04-23 16:11:15
50亿!国产保温杯卖爆美国:为了成为中国人,这帮老外也是拼了!

50亿!国产保温杯卖爆美国:为了成为中国人,这帮老外也是拼了!

李砍柴
2026-04-23 16:41:54
羡慕!某研究所员工晒出26年前三个月收入

羡慕!某研究所员工晒出26年前三个月收入

微微热评
2026-04-23 22:11:36
“19岁女生受邀去泰国泼水节被转卖电诈园”最新消息:园区初步同意放人,可迟迟不给具体位置,双方仍在协商接人事宜

“19岁女生受邀去泰国泼水节被转卖电诈园”最新消息:园区初步同意放人,可迟迟不给具体位置,双方仍在协商接人事宜

三湘都市报
2026-04-23 17:18:29
炫富网红蓝战非不装了,疯狂带货捞金

炫富网红蓝战非不装了,疯狂带货捞金

电商派Pro
2026-04-23 10:09:20
去掉机顶盒!我国一体化电视全国推广正式启动

去掉机顶盒!我国一体化电视全国推广正式启动

IT之家
2026-04-23 17:16:54
继人民日报发声后,官媒再次三问董宇辉,言辞犀利,字字揭他老底

继人民日报发声后,官媒再次三问董宇辉,言辞犀利,字字揭他老底

离离言几许
2026-04-23 20:04:00
于海青:为何说在飞机上声称南方空姐的女士给自己惹了大麻烦?

于海青:为何说在飞机上声称南方空姐的女士给自己惹了大麻烦?

于海青
2026-04-23 18:02:43
天平开始倾斜?最新伤病报告:杜兰特添新伤,里夫斯G3有望复出

天平开始倾斜?最新伤病报告:杜兰特添新伤,里夫斯G3有望复出

移动挡拆
2026-04-24 07:14:22
揪心!女生受邀赴泰过泼水节,被转卖缅甸电诈园,20万元赎金付完仍被困……

揪心!女生受邀赴泰过泼水节,被转卖缅甸电诈园,20万元赎金付完仍被困……

新民周刊
2026-04-23 18:53:58
知名歌手因抢不到五一高铁票取消演唱会!

知名歌手因抢不到五一高铁票取消演唱会!

深圳晚报
2026-04-23 19:29:44
记者:湖人调整里夫斯出战情况,球员有望G3复出

记者:湖人调整里夫斯出战情况,球员有望G3复出

懂球帝
2026-04-24 07:30:36
女子买12万黄金首饰,金店为何报警?起底退费骗局

女子买12万黄金首饰,金店为何报警?起底退费骗局

环球网资讯
2026-04-23 16:39:17
上海地铁站内,这个“高素质”习惯爆发冲突!上海已叫停多年!很多人改不过来……

上海地铁站内,这个“高素质”习惯爆发冲突!上海已叫停多年!很多人改不过来……

环球网资讯
2026-04-23 11:11:44
4.24日早评|重磅公布!美伊大消息!A股要爆!

4.24日早评|重磅公布!美伊大消息!A股要爆!

龙行天下虎
2026-04-24 05:01:21
前厨师:C罗的饮食很均衡且不喝牛奶,因为这违背自然规律

前厨师:C罗的饮食很均衡且不喝牛奶,因为这违背自然规律

懂球帝
2026-04-23 23:43:03
2026-04-24 08:03:00
量子位 incentive-icons
量子位
追踪人工智能动态
12524文章数 176457关注度
往期回顾 全部

科技要闻

马斯克喊出"史上最大产品",但量产难预测

头条要闻

特朗普发文后 伊朗最高领袖、总统、议长、外长齐发声

头条要闻

特朗普发文后 伊朗最高领袖、总统、议长、外长齐发声

体育要闻

给文班剃头的马刺DJ,成为NBA最佳第六人

娱乐要闻

王大陆因涉黑讨债被判 女友也一同获刑

财经要闻

普华永道赔偿10亿 恒大股东见到"回头钱"

汽车要闻

预售30.29万起 岚图泰山X8配896线激光雷达

态度原创

艺术
家居
教育
健康
公开课

艺术要闻

罕见曝光!毛泽东 36 幅经典对联,每一幅都是绝品!

家居要闻

浪漫协奏 法式风格

教育要闻

家长要电子试卷被说派头大?天津这起家校误会,没有真正的赢家!

干细胞如何让烧烫伤皮肤"再生"?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版