网易首页 > 网易号 > 正文 申请入驻

天猫精灵AliGenie 5.0系统体验:唤醒语音助手不再靠喊话

0
分享至

你应该看过那个视频吧:有人跑到苹果店里大喊一声"嘿,Siri",一瞬间几十上百个Siri齐声"在呢,什么事",那环绕立体声效堪比杜比全景声!

干这事的人无疑是为了搞笑,但也无形中戏谑了一把所谓人工智能语音助手的一个不足,那就是必须要喊唤醒词才能进行对话或下达指令。需要唤醒词唤醒的语音助手们,似乎成了天经地义,但这事现在就被颠覆了。

9月17日,天猫精灵在云栖大会发布了首个全场景人机交流系统AliGenie 5.0,首次将人脸唤醒、唇动唤醒、手势操控、语音交互等多种形态的交互方式融合在一起。

简单地说就是,我不需要再喊一声"天猫精灵",直接就能跟机器对话了,有时候做减法比做加法更难,AliGenie 5.0省掉的这一步对于人机交互来说是革命性的。

多模态唤醒首次大规模应用落地

AliGenie升级到5.0后,将唇动、手势、语音语义等多种形态的交互信息融合在一起,这也就是人机交互领域常说的多模态。

模态,虽然不是我们的日常用语,但从字面意思上其实很容易理解。正如我们有视觉、听觉、嗅觉和触觉等,传递出的信息就有视频、图像、语音、手势、姿态等,每种形式可以称作一种模态。

多模态融合的人机交互一直是人工智能研究的热门领域,但此前更多停留在学术研究层面。而AliGenie 5.0系统已同步落地到天猫精灵今年的三款秋季新品上:天猫精灵CC10电池版家庭智慧屏(以下简称CC10电池版),天猫精灵CC MINI智能时钟屏以及IN糖2智能时钟音箱。其中,CC10电池版将率先上线多模态唤醒功能,并在10月中旬逐步升级覆盖CC带屏系列产品。

这是多模态唤醒首次大规模应用在消费电子产品上,不管是对阿里公司,还是整个人机交互技术领域来说,它都具有重要意义。这或许也意味着,很快你对手机、智能音箱乃至整个智能家居发号施令的方式要全面变革了。

当然,变革的前提是,天猫精灵AliGenie 5.0系统所带来的多模态唤醒体验像它们宣称的那样好。我已对CC10电池版搭载的多模态唤醒功能体验了一段时间,可以说它确实刷新了我对智能音箱这类产品的使用认知,这种感受不能说是颠覆性,却新颖又熟悉。

就像在跟身旁同事说话

新颖和熟悉本是两个矛盾的词,但用在CC10电池版的交互体验上很合适。之所以说新颖是因为,居然我不需要先喊一声"天猫精灵",它就能直接回应我。

举个例子,我平时把CC10电池版放在办公桌一侧,写稿子时想要听歌了,把头一转向它,左下角的天猫精灵便提示"已人脸唤醒,我正在听……",几乎就是同时,我对它说"播放音乐",然后就开始放歌了,整个过程就像跟旁边工位的同事对话一样,根本不需要多费口舌喊声"天猫精灵"。

这也是我说它"熟悉"的原因,你想想和它对话就跟旁边同事聊天一样,自然的交流,能不熟悉吗?

升级到AliGenie5.0后,CC10电池版还支持多种手势隔空操控,比如对屏幕竖大拇指就能收藏当前播放内容,做个"嘘"的手势,就可以马上让天猫精灵静音,这种很"拟人化"的交流方式让交互感受更顺畅了。

使用过程中我还发现,从侧过脸到讲出指令,或者举手做"嘘"的手势,到CC10电池版接收指令做出反应,中间并没有太多等待时间,整个响应过程是一气呵成的,这当中也离不开多模态唤醒的作用。

据介绍,天猫精灵的算法专家通过融合视觉识别能力、语音识别能力以及上下文语义,把视觉和语音信息通过深度学习的方式进行融合然后输入到机器"大脑",进而做出综合性决策,让机器"能听、会看"。

也就是说,开启多模态唤醒功能后,在盯着机器张嘴说话时,天猫精灵会自动识别出我的唇动、眼神朝向、表情动作,接收语音信息的同时就能直接给出对应的反馈了。

使用CC10电池版的时候,我也发现,如果我对着CC10电池版时没有讲话,而旁边的同事在讲话,它也不会被误唤醒,因为这时机器接收到的声音和图像信息没有匹配。而当我在说话的时候,它接收到我的嘴唇动作和声音是匹配的信息,就会被唤醒并识别指令。

我们在对未来人工智能的畅想中,并不希望看到唤醒-接受指令这种机械的方式,而是全面"拟人化"的交流。当不需要再喊出"天猫精灵"的唤醒词,就能跟CC10电池版自然交互时,我发现这个智能助手是真的懂我了。

让每个人无差别享受AI

根据天猫精灵数据,在家庭生活场景下,结合人脸、唇动唤醒和语音自然对话,多模态识别的准确率超过99%。从CC10电池版在我办公桌旁的这段时间来看,近距离的唇动唤醒成功率是很高的,即使是人声更嘈杂的办公室环境,它也没有被其他人的语音误唤醒的情况出现。

事实上,多模态唤醒相比单一的语音唤醒词能够更好降低误唤醒率。在各家智能助手发展的过程中,为了语音唤醒成功率这个指标,算法会把语音感知的灵敏度调整得很高。过高的灵敏度很容易捕捉到汉语里某些发音相似的音节,因此哪怕是一家人日常闲聊,电视里播放新闻,乃至三更半夜时,音箱里的语音助手们都可能突然说话,让人莫名其妙。

在免唤醒的对话情景下,天猫精灵需要融合嘴唇、语音的动态信息识别,能够帮助机器过滤掉90%以上的环境背景干扰信息,反而能够做到比特定的唤醒词更高的准确率,同时大大降低误唤醒率。

唇动唤醒的方式也是此次天猫精灵AliGenie 5.0系统的首创,先提取人讲话时的唇动关键特征点,经过唇动的分析,当图像序列和音频序列能成功匹配时,继而结合上下文语义综合判断出用户与机器对话的行为意图,最终唤醒设备。

搭载AliGenie 5.0的CC10电池版,根据生活中常见的"近场、中场、远场"三类人机交互情景,可以综合调动多种交互信息来确认我们的交流意图。近场也就是1米左右的交互情景下,唇动唤醒无疑是最自然的。1-1.5米左右的中场距离下,模拟人们打招呼的形式,对着机器挥手说话即可唤醒,此时也不需要喊出"天猫精灵"。

更远距离时,直接通过"天猫精灵"唤醒词下指令也是最拟人化的体验,未来,天猫精灵还将利用声纹识别技术来辨别声音来源的方向、位置,让语音唤醒的反馈更精准。虽然真实生活场景中,还会受到人脸距离、光线等因素的影响,但AliGenie 5.0在人机交互上无疑已开始一段新的征程。

有了多模态识别的能力,经过一段时间的训练,未来人工智能助手能把人和声音及声音方向、手势动作都"对号入座",在一个家庭空间中,可以真正认识、分辨出每一位家庭成员,熟知每个人的生活习惯和喜好,并且在任一位置都能与家庭成员自然交流,它与理想中的未来智能助手的样子已越来越接近了。

许多科幻电影描绘的未来生活,人工智能化身成一个不折不扣的管家,不再是被动的接受命令,而是通过用户的私人喜好与定制化需求主动提供服务。这个过程的建立就是通过自然语言的交流实现的,之所以它看起来如此美好,正是因为自然交流对于人来说几乎没有学习成本。

家庭里的成员构成复杂多样,与机器的自然交流还意味着它可以让所有人无差别使用最新技术。语音对话、唇动唤醒、眼神手势交流融合的自然交互方式,意味着在技术层面,降低了人们触达前沿科技的门槛。

网购、移动支付、网约车、外卖,还有人人都离不开的健康码,技术让许多人生活变得越来越便利,但有的人却因为种种原因无法享受到,这不是人或者技术的错,在改变的过程中,技术需要辅助人们适应变化,而不是跟人对立起来,造成所谓的"淘汰"。

天猫精灵AliGenie 5.0将多模态唤醒的落地,其实就是做了一件看起来简单但伟大的事:用跟人一样打交道的模式,为更多人提供前沿科技带来的便利,让每个人无差别享受AI。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

/阅读下一篇/

实用!工信部推出新的反诈利器

返回网易首页 下载网易新闻客户端
相关推荐
热点推荐
联播关键词|中共山东省委组织部干部任前公示公告(2025年第5号)

联播关键词|中共山东省委组织部干部任前公示公告(2025年第5号)

闪电新闻
2025-06-20 19:46:41
我只能说,简直太懂中国女人的美!

我只能说,简直太懂中国女人的美!

超级数学建模
2025-06-19 22:32:55
《歌手2025》单依纯守榜失败,麦克布雷领先25%

《歌手2025》单依纯守榜失败,麦克布雷领先25%

潇湘晨报
2025-06-20 21:00:26
女优明日花绮罗全套7位数天价,男星付费激战恐违法

女优明日花绮罗全套7位数天价,男星付费激战恐违法

葫芦哥爱吐槽
2025-06-19 15:32:56
曝阿莫林剥夺曼联4人集训资格,不转会就去2队!拉什福德仍拒纽卡

曝阿莫林剥夺曼联4人集训资格,不转会就去2队!拉什福德仍拒纽卡

罗米的曼联博客
2025-06-20 07:53:38
庆姨安排男友轮流交公粮?功夫不到位马上换人!

庆姨安排男友轮流交公粮?功夫不到位马上换人!

毒舌八卦
2025-06-19 16:31:25
外媒:伊朗“泥石”导弹对以色列构成重大威胁

外媒:伊朗“泥石”导弹对以色列构成重大威胁

参考消息
2025-06-20 14:41:20
大布妮可拉豪掷千万美国买房,脱英了!小贝夫妇一毛没掏,和好彻底没戏?

大布妮可拉豪掷千万美国买房,脱英了!小贝夫妇一毛没掏,和好彻底没戏?

英国那些事儿
2025-06-19 23:11:25
认同吗?贝弗利更推:如果步行者赢下总决赛G7,麦康奈尔应当选FMVP

认同吗?贝弗利更推:如果步行者赢下总决赛G7,麦康奈尔应当选FMVP

雷速体育
2025-06-20 16:24:42
德约:费德勒最有天赋,纳达尔是另一个极端,自己更偏向纳达尔

德约:费德勒最有天赋,纳达尔是另一个极端,自己更偏向纳达尔

搏击江湖
2025-06-20 20:12:36
又有干部“喝死”了,整治违规吃喝应当治“乱象”用“重典”

又有干部“喝死”了,整治违规吃喝应当治“乱象”用“重典”

星空区块链
2025-06-20 21:36:27
有“苏超”的长三角将逼近世界第一

有“苏超”的长三角将逼近世界第一

首席商业评论
2025-06-20 13:05:43
广东留英博士性侵多人被判无期徒刑 英检察官:接获新报案将追加起诉

广东留英博士性侵多人被判无期徒刑 英检察官:接获新报案将追加起诉

封面新闻
2025-06-20 12:47:02
央视取消!再见了,易建联!已经阔别1年时间……

央视取消!再见了,易建联!已经阔别1年时间……

篮球实战宝典
2025-06-20 22:13:44
伊朗导弹库存见底,危机时刻,中国3架货机起飞,雷达图显示异常

伊朗导弹库存见底,危机时刻,中国3架货机起飞,雷达图显示异常

吴欣纯Deborah
2025-06-20 16:49:11
【解局】多轮打击后,伊朗核设施情况如何?多视角解析

【解局】多轮打击后,伊朗核设施情况如何?多视角解析

环球网资讯
2025-06-19 23:55:32
男子兼职闪送,接单发现地址是自己家,立即抢单:我倒要看看是谁

男子兼职闪送,接单发现地址是自己家,立即抢单:我倒要看看是谁

林林故事揭秘
2025-06-16 13:31:40
“男怕夏至,女怕冬至”,明日夏至,提醒男人:4事不做,3物不吃

“男怕夏至,女怕冬至”,明日夏至,提醒男人:4事不做,3物不吃

神牛
2025-06-20 06:43:00
广东零食店遭哄抢后续,老板追究到底,总公司派人救援,官方出手

广东零食店遭哄抢后续,老板追究到底,总公司派人救援,官方出手

鋭娱之乐
2025-06-20 20:25:40
中方亮剑!朱拉尼重用东突头目,收纳恐怖分子,还不知问题严重性

中方亮剑!朱拉尼重用东突头目,收纳恐怖分子,还不知问题严重性

智观科技
2025-06-19 19:29:12
2025-06-20 23:59:00
电脑报 incentive-icons
电脑报
创刊于1992年的计算机报
25764文章数 211572关注度
往期回顾 全部

数码要闻

消息称三星1c DRAM内存技术的生产良率已达70%

头条要闻

媒体:佩通坦录音泄密 一声"叔叔"恐致其联合政府瓦解

头条要闻

媒体:佩通坦录音泄密 一声"叔叔"恐致其联合政府瓦解

体育要闻

周通:2年前想过退役,没想到能踢世俱杯

娱乐要闻

黄晓明落榜原因曝光!叶珂曾秀幸福

财经要闻

58同城一边裁员一边跨界投资

科技要闻

余承东:鸿蒙6主打"毫秒级"时延与全面AI

汽车要闻

五项订车礼/四款车型 一汽奥迪A5L正式开启预售

态度原创

教育
本地
房产
家居
公开课

教育要闻

三好父母的新标准:90%的家长只能做到第一好

本地新闻

被贵妃带火的“唐代顶流”,如今怎么不火了

房产要闻

坑惨2000多人!恒大财富海南高管被曝非吸12.6亿元!

家居要闻

山水之间 墨染风雨云间

公开课

李玫瑾:为什么性格比能力更重要?