网易首页 > 网易号 > 正文 申请入驻

跨越感官界限,多模态加速落地中

0
分享至

21世纪经济报道记者 董静怡 上海报道

想象一下,当你走进一家智能商店,摄像头捕捉到你的身影,通过面部识别技术确认你的身份;同时,店内的语音助手通过你的声音识别出你的偏好,并推荐适合你的商品。这不仅仅是一个简单的购物体验,而是一个由多模态驱动的个性化智能服务。

“为什么要多模态?是因为真正的人在现实世界中解决问题的时候,他输入的信息本身就是多模态的,除了自然语言以外还有视觉、听觉、触觉,还有常识,所有这些是需要综合起来才能解决现实世界当中很多常见的问题。”智谱AI CEO张鹏向21世纪经济报道记者表示。

而多模态的应用远不止于此。在医疗领域,它能够帮助患者和医生分析医学文本、放射影像、病理图像等多种数据,更准确且更有效地诊疗各类疾病;在自动驾驶领域,多模态感知系统能够综合处理来自雷达、摄像头和传感器的数据,实现更加安全和高效的驾驶决策。

目前来看,多模态的发展是国内外共同的发力点。商汤科技研发总监卢乐炜向记者表示,尽管国外在多模态领域的研究较早,但中国在单点技术(如视觉和听觉识别)和产业应用方面具有优势,这为中国在多模态领域提供了与国外几乎相同的起点。

多模态对中国来说是一个巨大的机遇,有可能在这个领域实现快速发展。”卢乐炜向记者表示。

热度高升

多模态大模型是实现通用人工智能(AGI)的关键步骤,它利用视觉、听觉等多种感知通道,模拟人类理解与表达信息的能力。理想中的多模态大模型具备跨模态的泛化理解和生成能力,更符合人类感知世界的方式。

“多模态一定是必然的,我们很早就认为多模态一定是大模型发展最关键的因素。”出门问问品牌总监高佳向21世纪经济报道记者表示,“Agent的输入和输出都要依赖于多模态,没有多模态就没有Agent。”

在刚刚过去的2024世界人工智能大会(WAIC)上,众多厂商推出或更新自己的多模态大模型,例如商汤科技发布国内首个实时的流式多模态交互模型“日日新5o”,交互体验对标GPT-4o,实现全新AI交互模式;蚂蚁集团也公布了其自研的百灵大模型最新研发进展,具备能“看”会“听”、能“说”会“画”的原生多模态能力,可以直接理解并训练音频、视频、图、文等多模态数据。

腾讯集团副总裁蒋杰表示,大模型行业正从最初的单模态向多模态过渡。“在文生图领域,最近效果比较好的是采用DiT架构的模型,它融合了早前主要用于文本生成的Transformer架构,并在图像和视频生成任务中展现出了显著的优势;在文生视频领域,视频生成正朝着更高分辨率、更长时长、更精细的方向发展,一些较好的模型已经能够生成长达数分钟高清的视频,带来了广阔的应用想象空间。”他表示。

目前,全球科技巨头正在积极探索并布局多模融合的路径,多模态大模型研发的脚步正越走越快。不过,从技术层面来说,多模态的路径面临的是更大的挑战。

正如其名,多模态大模型需要处理和整合来自不同模态的信息,如文本、图像、视频和音频等。卢乐炜向记者表示,“多模态之间语义表达方面是不同的,它们从数据角度不一样。”这些模态之间的语义对齐和信息融合是一个技术难点,需要模型能够理解不同模态间的内在联系并生成一致的输出。

以视频生成为例,视频是一系列图像的集合,加上音频轨道,因此它包含了更大的数据量和更复杂的信息。处理视频需要模型不仅要理解静态图像,还要理解动态变化和时间序列信息,这增加了计算的复杂性和对存储的需求。

卢乐炜认为,多模态大模型,特别是处理视频等大规模数据时,对计算资源和存储能力提出了更高的要求。为了克服多模态之间的数据和模态鸿沟,需要设计创新的算法来实现不同模态数据的有效对齐和融合。

另一方面,阶跃星辰创始人、CEO 姜大昕提出,多模态领域目前存在的问题是,视觉的理解模型和生成模型是分开发展的。其造成的结果就是理解模型的理解能力强而生成能力弱,或者生成模型的生成能力强而理解能力弱。因此,多模态大模型接下来面临的一项关键挑战,就是能否将理解和生成统一在一个模型里。

与文本和语言模型相比,多模态生成模型的发展还相对滞后,可能还处于类似于GPT-2阶段的水平。然而,这一领域的潜力巨大,未来的发展空间非常广阔。

落地端侧

多模态的大火,业内的注意力从有趣的单点应用转向了与产业和场景的融合。

从今年的发展来看,多模态技术不再只是单纯的热点话题,需要更多地深入到实际的应用场景中,以解决具体问题。”卢乐炜向记者表示。

在AGI的发展过程中,如果系统仅依赖于语言处理,它接受的输入维度将相对有限,这限制了其对复杂场景的理解能力。考虑到应用的多样性,尽管文本和语言处理能够提供有力的支持,AGI的进一步发展需要更深入地融入实际应用场景。

一方面,AI将成为更智能的个人助理。正如蚂蚁集团展示的多模态技术可实现的应用场景:通过视频对话的自然形式,AI助理能为用户识别穿着打扮,给出约会的搭配建议;根据用户不同的意图,从一堆食材中搭配出不同的菜谱组合;根据用户描述的身体症状,从一批药物中,挑选出可能合适的药,并读出服用指导,供用户参考等。

另一方面,则是与行业和端侧的深度结合,如智能手机和汽车行业的智能化趋势。例如,智能手机用户可能希望通过拍照与设备进行交互,提出与图片相关的问题,在这种情况下,模型需要直接处理视觉信号并做出反馈;在自动驾驶领域,多模态大模型的应用已经展现出其潜力,通过整合视觉、雷达和其他传感器数据,提高了系统的理解和决策能力。

天风全球前瞻产业研究院联席院长孔蓉在日前接受21世纪经济报道记者采访时表示,在今年WAIC上,AI与硬件领域的结合带来了许多新产品,包括AIPC、AI手机、可穿戴设备、自动驾驶汽车和机器人等领域的AI应用是亮点,尤其对于PC和手机来说,AI产品的推出可能会在硬件或手机领域引发换机潮。

事实上,已经有众多硬件厂商在AI领域坚定投入,AI能力或许会成为硬件厂商新的竞争点。尽管目前市场上尚未出现人们期待中的爆款,但这并不意味着大模型的应用前景不明朗,相反,这正是一个充满潜力和机遇的时期。

进一步的,则是实现具身智能——即智能体能够像人类一样理解和思考真实世界——需要AGI能够处理和整合来自多种感官的信息。在业内人士看来,多模态学习是具身智能发展的关键因素,它可以增强智能体的感知和交互能力,并提高其任务完成能力、自主学习能力和泛化能力。

“把模型构建起来的虚拟世界和物理世界真实地连接起来,多模态可以有效地降低幻觉,这是它非常重要的一部分。”高佳向记者表示。

具身智能发展最高级的形态是人形机器人,这也是今年WAIC上的一大亮点。多模态大模型赋能人形机器人从单一任务的执行转向更通用的任务处理,提高机器人的自动化决策能力,使其能够结合多模态数据实现更复杂的动作和任务。

银河证券认为:“多模态大模型的快速发展将提升人形机器人的智能化水平,加快人形机器人产业化进程,2024年有望成为量产元年。”

不难看出,多模态的发展会是AI落地的重要一环。“我们期待AI能解决更多更实际的问题。”张鹏向记者表示,“要实现更高级的应用,需要结合跨模态能力,甚至更复杂的智能能力。”

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
最高院:小区建成移交后,地下车库所有权使用权是否归全体业主?

最高院:小区建成移交后,地下车库所有权使用权是否归全体业主?

周军律师聊案子
2024-11-22 16:04:06
白百何晒与儿子合影,16岁陈盛桐身高近1米8,比爸爸陈羽凡帅太多

白百何晒与儿子合影,16岁陈盛桐身高近1米8,比爸爸陈羽凡帅太多

农村教育光哥
2024-10-13 19:00:26
俄罗斯试射的那3枚洲际导弹,2大细节表明:或领先中国至少10年

俄罗斯试射的那3枚洲际导弹,2大细节表明:或领先中国至少10年

慎独赢
2024-11-21 14:06:48
唐尚珺被导员约谈,上课吃力建议“转专业”,本人回应不乐观

唐尚珺被导员约谈,上课吃力建议“转专业”,本人回应不乐观

熙熙说教
2024-11-21 18:58:59
中英法航展成交额对比:法1500亿美元,英1036亿,中国差距有点大

中英法航展成交额对比:法1500亿美元,英1036亿,中国差距有点大

叮当当科技
2024-11-21 13:38:30
399.9米,世界上所有集装箱货船为什么都没超过400米?

399.9米,世界上所有集装箱货船为什么都没超过400米?

有趣的火烈鸟
2024-10-23 20:40:15
若大陆收台,美怎么做?特朗普打开天窗说亮话,两岸统一已成定局

若大陆收台,美怎么做?特朗普打开天窗说亮话,两岸统一已成定局

荧惑手心
2024-11-22 17:22:59
放量跳水!大权重核心资产尽墨,中国平安下挫4.43%,“宁王”跌3.41%,中证A100ETF基金(562000)收跌3%

放量跳水!大权重核心资产尽墨,中国平安下挫4.43%,“宁王”跌3.41%,中证A100ETF基金(562000)收跌3%

新浪财经
2024-11-22 20:49:08
汪小菲北大演讲被冷嘲热讽 张兰喊话黑粉 您来安排机票还送酸辣粉

汪小菲北大演讲被冷嘲热讽 张兰喊话黑粉 您来安排机票还送酸辣粉

娱圈小愚
2024-11-23 09:48:31
够火爆!豪华之师吞2连败,朱荣振12分,田桂森20分,两队爆冲突

够火爆!豪华之师吞2连败,朱荣振12分,田桂森20分,两队爆冲突

萌兰聊个球
2024-11-22 17:07:27
癫了?60岁奶奶也在某音玩擦边,自曝原因评论区开始心疼了…

癫了?60岁奶奶也在某音玩擦边,自曝原因评论区开始心疼了…

浪花妈妈
2024-11-21 21:55:27
“黄色网站”上的女生,都是怎么被偷拍的?

“黄色网站”上的女生,都是怎么被偷拍的?

书画艺术收藏
2024-10-29 19:10:02
又打了?12小时内,俄军导弹或两次越过核红线,美少将:射向基辅

又打了?12小时内,俄军导弹或两次越过核红线,美少将:射向基辅

影孖看世界
2024-11-22 22:22:09
销量下滑40.32%!又一新能源车企工厂停产,车主:维修都难

销量下滑40.32%!又一新能源车企工厂停产,车主:维修都难

娱乐的小灶
2024-11-21 14:37:55
下周广州最低10℃

下周广州最低10℃

南方都市报
2024-11-23 07:26:18
千万上海买房款被女友偷转走!情侣生子后因房产证闹翻,法官出手↗

千万上海买房款被女友偷转走!情侣生子后因房产证闹翻,法官出手↗

鲁中晨报
2024-11-22 17:16:16
0-2!连胜国羽两大主力,世界第6晋级四强,石宇奇孤军奋战!

0-2!连胜国羽两大主力,世界第6晋级四强,石宇奇孤军奋战!

钉钉陌上花开
2024-11-22 18:04:20
妹子网购树脂狼牙项链,没戴几天居然臭了!她一查:难道是以真充假?!

妹子网购树脂狼牙项链,没戴几天居然臭了!她一查:难道是以真充假?!

英国那些事儿
2024-11-22 23:35:18
1980年轰动巨大的新疆白毛风事件有多恐怖?749局首次认怂

1980年轰动巨大的新疆白毛风事件有多恐怖?749局首次认怂

小月文史
2024-11-20 19:14:38
中雪!降温10℃!河南周末天气大变

中雪!降温10℃!河南周末天气大变

鲁中晨报
2024-11-22 15:08:16
2024-11-23 10:35:00
21世纪经济报道
21世纪经济报道
中国商业新闻领导者
170047文章数 741322关注度
往期回顾 全部

科技要闻

3478亿美元!马斯克身家大选后暴涨35%

头条要闻

俄军官:大规模使用"榛树"导弹效果相当于核武器

头条要闻

俄军官:大规模使用"榛树"导弹效果相当于核武器

体育要闻

1年半夺2冠!迈阿密主帅马蒂诺因私人原因辞职

娱乐要闻

受王宝强资助孩子父亲发声

财经要闻

祝宝良:增量政策可使明年GDP增长5%左右

汽车要闻

对话张纯伟:80万!捷途立了一个新Flag

态度原创

时尚
数码
游戏
教育
手机

大胸MM穿衣技巧,打造轻盈感

数码要闻

荣耀300 Pro开启预订 三大唯美配色享24期免息

以《黑神话》为例:你会为了试玩而开主机会员吗?

教育要闻

教师读书要有效,不妨做到“六个要”

手机要闻

消息称苹果 iPhone 17/17 Air 手机依然没有 5 倍光学变焦镜头

无障碍浏览 进入关怀版