技术平权,是我听过最浪漫的词。通过技术上的努力,让每个人都能平等、有尊严地享受丰富多彩的现代文明,这才是技术进步的魅力。
广州车展前夕,科大讯飞正式发布了“飞鱼音效”产品,通过端云协同的人工智能算法进行调音,软硬一体的方案使普通车主也能拥有百万豪车的听觉体验。
该套“飞鱼音效”将搭载在智己、广汽传祺、奇瑞等品牌的车型上。
科大讯飞请了多位音乐学院的学生,体验某豪华品牌中大型SUV的原车高级音响,及科大讯飞改装的某10万级国产SUV音响。经过多维度的盲评,后者的各项表现都要优于前者。
科大讯飞总裁吴晓如在介绍“飞鱼音效”前,举了相机和手机的例子。过去摄影只是属于少数人的爱好,因为相机很贵且功能单一,而现在随着手机影像素质越来越好,越来越多人可以随时用镜头记录生活,甚至还催生了用Vlog、短视频来分享生活。
手机受制于成本和尺寸,镜头和传感器并不可能比相机好,能做到现在的状态,依靠的是手机的成像算法、补偿算法、合成算法、光学防抖算法等一系列的智能软件的加持,拉高了硬件的体验。
科大讯飞“飞鱼音效”的做法和手机相机的逆袭类似,也是通过软件算法,拉高硬件的体验,让普通硬件也能达到豪华硬件的水准。具体是怎么做到的呢?
“飞鱼音效”的秘密
我们通常认为“身临其境”,是对听觉体验最高的赞赏,毕竟去现场看话剧比看电影贵,现场听音乐会也比听数字CD贵。
因此想知道“智能算法是如何提升硬件体验”,就得先聊聊人是如何通过听觉来感知环境的?
我们闭上眼睛,可以听到不同的声音的强弱层次,以及各个声源位于我们的位置。不同声音的区分是来自我们大脑内的记忆存储,声音的强弱则来自音量和距离,而声源的定位则依靠我们耳朵的结构,以及声音入耳的角度。
具体来说,我们是通过声音在左右耳之间的延迟,来判断声源水平方位,通过耳廓对声波的反射,获取声源的垂直方位。
如果能够通过精细化的调校模拟出不同声音的音量、离左右耳的距离,在耳廓中的反射,就能实现虚拟声学空间,在汽车的座舱中营造立体的、高还原度的声场。
在这一过程是非常难的。很多对座舱听觉体验有要求的车型,都拥有10个以上扬声器,每个扬声器有3到4个喇叭,每个喇叭都需要协同调节,参数量非常大。这种多参数的系统调优耗时耗力,但现阶段多数都是依靠“金耳朵”们人力完成的。因此对一套动辄上万元的音响系统而言,调校是当下成本的大头。
此外受制于座舱内空间有限,扬声器安装的位置也不够灵活,但多数的音响系统调校,都是基于音乐厅、家庭影院,没能很好适配座舱场景,因此也无法最大化发挥昂贵硬件系统的价值。
科大讯飞的做法是,通过采集舱内每一个位置接收不同喇叭声音的参数,通过人工智能算法针对座舱场景自动调优,减少了声源调校的人力成本和时间成本。
做到这些还不够,科大讯飞依靠自身强大的语音人工智能技术,将各类声音做实时的元素分离,精准还原声场。例如为了还原一场电影的声音效果,会将声道中不同人的对话、BGM声、背景直升机的声音、海浪的声音、海鸟的叫声等分离出来,再根据人耳的位置,按照不同方向、频率、音量等做精细化分布,从而听起来更有层次感和指向性。
为了软硬一体提升座舱听觉体验,科大讯飞发布了“飞鱼智能音频管理系统”,支持10路麦克风接入、6路传感器接入、和对26个扬声器单元的管理。“飞鱼智能音频管理系统”搭配不同数量的普通扬声器,可实现不同梯度的座舱听觉体验。
电动汽车拥有更高的电压、更多的带电量,为座舱的听觉提升提供了基础,车主们对电动汽车的听觉需求也会越来越高。科大讯飞的“飞鱼音效”,能够通过智能算法的加持,实现技术平权,让优质的听觉体验不再是需要花近10万费用加装的奢侈品。
融入飞鱼OS的场景化服务
场景这个词愈发频繁地进入我们的视野,自动驾驶需要场景化落地,智能座舱也需要针对不同场景做更精细化的服务。本次科大讯飞的发布会,飞鱼OS也增加了很多针对场景做的用户体验优化设计。简单来分享几个我认为很棒的设计。
融合视觉的动态完美“皇帝位”。通过座舱摄像头获取的座舱信息,就可以知道当前车内该服务的“听”者是谁,从而做到自动切换声场。同时视觉算法可以捕捉耳朵的位置,做到动态的声场定位。当一个人开车时,系统会让音响的“皇帝位”跟着主驾驶的耳朵走。这相对于此前在车内调校几个固定声场,再在车机屏幕上手动切换,用户体验是质的飞跃。
飞鱼音效和辅助驾驶的融合体验。辅助驾驶系统启用下,座舱会有很多的提示信息和提示音,飞鱼OS希望通过ADAS的感知数据,让提示音能够和障碍物的方位保持一致。例如当左前方有车近距离Cut in,触发系统警报声,就会从左前方传来。这样避免了辅助驾驶系统下消息过密,影响体验。
融合视觉的车内无障碍交流。同样是通过座舱摄像头或许视觉信息,当通过唇部判断两个人在聊天时,系统会主动降低这两个位置听到的声音音量,让聊天信息更清晰。如果是两个坐在前后排,且车在高速上噪音比较大时怎么办?还有车内交流补偿,就是通过一侧的麦克风降噪收声,然后再在另一个乘客座位的音响内播放,这样来个循环,就能确保两个人在环境噪音较大的情况下无障碍交流。当然,打电话时的收声降噪问题,早就不算问题了。
场景定制。可以针对具不同的场景做不同的定制化体验,例如定制看电影的专属调校、听音乐的专属调校、放松的森林小屋场景,还有KTV车内唱歌的场景。这些场景不仅会对扬声器和声场做专属优化,还会和生态商一起做优化。举个例子,KTV场景下,对伴奏声做声场调校,还会在收声后做声音的优化处理,让你觉得自己唱的更好听。
语音流转。语音电话打进来了,聊到一半,想让后排的乘客继续聊,只需要在屏幕上划一下,就能将声音和收声都移动到该驾驶位。
每个座位专属的语音TTS。同一个语音助手,在不同的座位,可以用不同的TTS存在,也会变得很有趣。想象一下主驾交流使用时是成熟的大人声,而后排的小朋友在后排听到的是童声,每个座位都能听到自己想象中人工智能应该有的声音。
通过不同声音的元素分离技术,精细化的扬声器和麦克风控制,以及视觉人工智能的相结合,座舱在娱乐、办公等不同需求下的用户体验升级,会打来非常大的想象空间。
写在最后:
介绍完“飞鱼音效”以及飞鱼OS的场景化服务,再来分享一个不那么有趣的故事。
科大讯飞苏州研发院的团队,在做完“飞鱼音效”后,邀请了某家车企合作伙伴来体验。对方体验完,表示“飞鱼音效”的表现,在各方面都比进口的名牌音响系统要好,但自家依然不会买。
原因大家都懂的,毕竟声音的优异对很多人而言是“玄学”,而一个响当当的国外牌子刻在显眼的位置,确实更吸引人。
拥抱变化真的是一件艰难且需要勇气的事。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.