网易首页 > 网易号 > 正文 申请入驻

语音合成商业化:科大讯飞向左,魔音工坊向右

0
分享至

近年来随着AI技术的迅速发展,人机交互变得越来越频繁,“语音合成”就是人机交互中的重要一环。语音合成技术又被称为文语转换(TTS)技术,就是可以将文字信息转化为流畅标准的语音,其所合成的声音既可以是模仿某个人的声音,也可以是包含特定风格的声音,甚至能掺杂一定的情感成分。基于这样的特点,语音合成技术能够应用到许多领域,既可以改善人机交互困难的情景,使人类与计算机的交流更加方便快捷,也可以帮有身体障碍,只能通过语音来交流的特殊人群。

但是,在人机互动之外,语音合成的商业化一直是个隐藏在人工智能后面的神秘角色,但大体来讲,可以分为两种类型:一种是借着技术优势做赋能,代表为科大讯飞的讯飞开放平台;另一种是贴近需求做应用,代表为出门问问的魔音工坊。

配图来自Canva可画

隐藏在人工智能背后的狭小市场

语音合成市场是个极为细分的狭小市场,与之并列的还有语音识别、语音分析等,说到底,语音合成不过是人工智能在应用过程中的副产品罢了。但也正是因此,语音合成技术就处在了一个“难者不会,会者不难”的尴尬区间,所以市面上的语音合成技术基本上都来自人工智能厂商,至少是对人工智能有所参与的厂商。

例如各大云服务厂商就都有语音合成的服务,包括腾讯云、阿里云、百度AI开放平台以及字节跳动的火山引擎。

“语音合成”用最简单的方式理解,归根结底不过是让机器将文本“说出来”。虽然语音合成总是与人工智能相关,但其实只要用户需要,就能成为一种应用场景,因此语音合成的应用范围十分广泛,同时遍布消费级和行业级——而且,在不同的应用场景中,消费级和行业级也显示出截然不同的特点来。

消费级应用场景中的语音合成,面向的对象往往就是消费者自身。近年来随着短视频的兴起,配音成为部分短视频创作者工作流中必不可少的环节,但是绝大部分的短视频创作者并没有接受过专业的配音训练,因此其配音要么效果不尽人意,要么效率极为低下——某些生手甚至需要30分钟来配1分钟的文案内容。

在这样的情况下,语音合成恰好弥补了消费级用户自身能力的不足。由于大部分消费级需求以配音为主,使得消费级语音合成可以通过标准化、通用化的方式来降低制作成本。也正是因此,在消费级领域耕耘,对语音合成厂商的技术要求没那么高。

行业级应用场景中的语音合成,面向的对象往往需要是“消费者的消费者”——与消费级用户很不同的是,行业级用户自身其实并不需要语音合成来满足什么需求,但它们的语音合成产品一般都要面向数以万计的用户,对使用频次和产品质量都有更高的要求。

因此行业级语音合成产品往往采用定制的方式,不仅制作周期长,制作难度高,而且产品单价高,替换成本高。这种时候对语音合成厂商的技术要求和制作水平就大大提高,一般都是由大型人工智能厂商,或者专精语音技术的厂商来完成。

讯飞:技术驱动行业级市场

科大讯飞是典型的技术驱动型企业,它的语音技术当属世界一流,它旗下的“讯飞开放平台”是以语音交互为核心的人工智能开放平台。因此,讯飞开放平台提供的语音合成服务实际上只占了它自身很小的一部分。

在这样的情况下,讯飞开放平台几乎和其他云厂商的开放平台一样,不能提供面面俱到的通用化和标准化产品,也正是如此使其无法提供通用型产品。对于讯飞开放平台来说,技术才是第一位的,因为只有技术力足够强,才能满足上门的行业级客户,尤其是这些客户的需求比消费级客户复杂得多。

对此,讯飞开放平台只能提供以通用的服务模型,即某种成熟的方法论,来实现行业级客户的复杂需求。为了便于区分行业级用户的需求,讯飞开放平台依旧将语音合成服务分成了三个板块:在线语音合成、离线语音合成以及发音人自训练平台。

其中在线语音合成能够将文字转化为自然流畅的人声,超过100个发音人可供选择,并且支持多语种、多方言和中英混合,同时能够灵活配置音频参数。这种模式广泛应用于新闻阅读、出行导航、智能硬件和通知播报等场景,这在海尔的电话客服、追书神器和央视新闻APP的“早啊!新闻来了”有声栏目都有应用。

离线语音合成引擎满足无网络环境下的转语音需求,SDK轻巧方便,能够做到实时响应,相当于APP内置的“朗读者”,在语音导航、新闻听书和提示播报等场景具有广泛应用。耳熟能详的KA有高德导航、滴滴打车、起点读书和智慧树考勤机等。

最后,发音人自训练平台则是基于科大讯飞最新语音合成深度学习技术,只需要提供少量的干净录音数据,机器就可以快速学习并生成可使用的语音合成音库,提供专属的合成声音。适用于智能客服和教育培训等领域。

结合以上数据不难发现,行业级客户对于语音合成的需求,更多的体现在人机交互方面,简单来说就是需要手机APP“会说话”,而不像消费级用户那样基本上只对配音后的音频有需求。

因此,在将语音合成模块嵌入应用的过程中,讯飞开放平台就完成了它的商业化。在行业级应用场景中,音库定制、服务量、装机量、发音人、并发数以及有效期都是可选的收费选项,而且价格相较于消费级服务来说,算是十分高昂了。

魔音工坊:应用驱动消费级市场

相较于母公司出门问问,魔音工坊可能更加出名,它是专门针对消费级市场进行特化的语音合成平台。正如前文所述,消费级语音合成市场的基本需求——同时也是最大需求——就是配音。所以魔音工坊几乎就是针对配音来设置不同板块和各种功能。

对于魔音工坊来说,技术并不是第一位的,如何利用现有技术与消费者需求进行匹配才是第一位的。以功能最为完整的网页端来说明,魔音工坊共设置5个板块:软件配音、真人配音、声音商店、效率工具以及声音克隆。

其中声音商店是声库,内置了魔音工坊自制的不同声源。共计367个配音师,和817种风格,因为主要受众是国内用户,因此基本覆盖了各地区方言,和少量不同音色的英语声源。魔音工坊通过标准化和通用化的声源,足以满足绝大部分用户的配音需求了。

而软件配音和声音克隆板块给予用户分别自定义文本和音源的权利。其中文本的自定义过程中,可调的参数细致到多音字读音、语速和停顿等真实场景中的;而音源的自定义则与讯飞开放平台类似,需要提供真人声源。

最后,效率工具和真人配音则为用户解决在配音过程中可能遇到的问题。效率工具提供了文案提取、自动打轴、背景音处理、人生处理、一键去水印和封面制作等工具,而且基本上都是免费试用;真人配音则进一步节省了用户花在配音调参的时间。

不难发现,从声库到自定义声源,从软件配音到真人配音,魔音工坊几乎将用户的每个痛点都抓住了,虽然技术可能不比科大讯飞,但在对消费级用户的友好度这一块,魔音工坊绝对不输。

同时,魔音工坊的商业模式可以很好地嵌套在从寻找声音到完成配音的过程中。从用户打开魔音工坊那一刻起,收费就已经开始了——首先是售价289元的年费会员,紧接着声库的声源基本上都是会员专享或者付费使用,价格从199-899/年不等,其次声音克隆和真人配音亦需要额外付费,具体数额视不同情况而定。

技术与应用的博弈与殊途同归

行业级语音合成厂商与消费级语音合成厂商“井水不犯河水”,几乎是泾渭分明地守着各自的一亩三分地。但实际上,在讯飞开放平台和魔音工坊决定服务不同的人群的时候,语音合成的技术面以及应用面的博弈就开始了。此时,技术已经不再是决定性因素了,如何与需求对接才是重中之重。

因此,我们可以将讯飞开放平台和魔音工坊之间的区别,看作是语音合成满足不同消费者需求的不同路径。行业级用户往往需要语音与应用相结合,其中重点在于“结合”,在于为它们自己的用户提供足够差异化的使用体验;而消费级用户往往需要的是语音合成出的音频,重点在于“结果”。这之间的微妙差异,正是技术力稍弱的语音合成厂商生存的空间。

但是,在这些差别的另一面,也能看到消费级与行业级用户需求是殊途同归的。说到底,无论是某个APP需要内置语音,还是某个短视频创作者需要配音,这都是以“语音合成”这项技术为基础的。像是许多将别家技术打包,拿过来就用的“二道贩子”,无论如何都不可能经营得长久。在这种时候,语音合成就变成了一个楔子,它就变成了这个市场的“入场券”。

总的来说,以讯飞开放平台和魔音工坊为代表的两类语音合成厂商将会继续共存下去。这也象征着语音合成技术驱动和应用驱动的统一,无论如何,满足消费者需求才是语音合成商业化的关键要素。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
100万股东喜极而泣!A股“散户之王”,终于暴涨

100万股东喜极而泣!A股“散户之王”,终于暴涨

财经锐眼
2026-05-28 19:15:30
曝俄罗斯或失去顿涅茨克全境!乌克兰逐步掌握前线主动权

曝俄罗斯或失去顿涅茨克全境!乌克兰逐步掌握前线主动权

项鹏飞
2026-05-28 17:38:41
被指造假压榨学生5年,网传北航这位博导遭“天花板”处分,学术路全断了

被指造假压榨学生5年,网传北航这位博导遭“天花板”处分,学术路全断了

互联网大观
2026-05-28 16:45:38
震惊!网传武汉一婚介所男性资料只剩20多份,女性激增到3500多份

震惊!网传武汉一婚介所男性资料只剩20多份,女性激增到3500多份

火山詩话
2026-05-28 13:25:07
河南全力以赴救治伤员,有力有序推进交通事故处置工作

河南全力以赴救治伤员,有力有序推进交通事故处置工作

环球网资讯
2026-05-28 19:31:13
法网大冷!世界第一辛纳2-3遭塞伦德罗逆转 疑似中暑终结30连胜

法网大冷!世界第一辛纳2-3遭塞伦德罗逆转 疑似中暑终结30连胜

醉卧浮生
2026-05-28 21:51:56
王思聪基本上不会再回来了。

王思聪基本上不会再回来了。

流苏晚晴
2026-05-28 18:06:51
王欣瑜对手:我不是一个作弊的球员;总不能平白无故把分数让给她

王欣瑜对手:我不是一个作弊的球员;总不能平白无故把分数让给她

懂球帝
2026-05-28 01:50:22
海评面:“中国乡村点燃全球漫游热情”

海评面:“中国乡村点燃全球漫游热情”

海外网
2026-05-28 18:23:02
20万飞天茅台必须搭售40万黔茅酒,企业老板受邀参加“茅台合作峰会”后怒斥被耍

20万飞天茅台必须搭售40万黔茅酒,企业老板受邀参加“茅台合作峰会”后怒斥被耍

潇湘晨报
2026-05-28 12:47:31
这跟不穿有啥区别?戛纳闭幕式,女星下垂、副乳突出,露的好辣眼

这跟不穿有啥区别?戛纳闭幕式,女星下垂、副乳突出,露的好辣眼

天马幸福的人生
2026-05-26 11:05:02
法拉利推出首款纯电动车,定价435万元,被指撞脸“萤火虫”!股价应声大跌,前主席吐槽“能不能抠掉车标”

法拉利推出首款纯电动车,定价435万元,被指撞脸“萤火虫”!股价应声大跌,前主席吐槽“能不能抠掉车标”

极目新闻
2026-05-28 14:23:11
国务院:允许通过地方政府专项债券支持符合条件的城市更新项目建设,支持用作项目资本金

国务院:允许通过地方政府专项债券支持符合条件的城市更新项目建设,支持用作项目资本金

澎湃新闻
2026-05-28 19:24:05
货车在南京一小区内超速撞击4岁幼童致重伤,奶奶为护孩子不幸身亡

货车在南京一小区内超速撞击4岁幼童致重伤,奶奶为护孩子不幸身亡

大风新闻
2026-05-28 21:25:04
载16人黑车高速公路追尾半挂车致13死,河南车主在湖北上的牌照

载16人黑车高速公路追尾半挂车致13死,河南车主在湖北上的牌照

上游新闻
2026-05-28 15:50:25
马上要满84岁了!四川大爷考取C2驾照:我是机械师 科二科三简单,但科一科四考了多次

马上要满84岁了!四川大爷考取C2驾照:我是机械师 科二科三简单,但科一科四考了多次

红星新闻
2026-05-28 18:10:00
奥达,确认遇袭身亡

奥达,确认遇袭身亡

第一财经资讯
2026-05-27 20:03:35
国内将逐渐停止"肠镜检查"?做完对身体有无影响?医生告诉您真相

国内将逐渐停止"肠镜检查"?做完对身体有无影响?医生告诉您真相

垚垚分享健康
2026-05-27 11:20:11
晚点独家丨小红书获得世界杯独家转播权益,将冲击 DAU 新高

晚点独家丨小红书获得世界杯独家转播权益,将冲击 DAU 新高

晚点LatePost
2026-05-27 11:06:31
一盘木耳毒死7人?医生警告:木耳尽量别这样吃,比砒霜还毒

一盘木耳毒死7人?医生警告:木耳尽量别这样吃,比砒霜还毒

医学科普汇
2026-05-27 16:52:29
2026-05-28 22:07:00
刘旷 incentive-icons
刘旷
公司创始人
3856文章数 19254关注度
往期回顾 全部

科技要闻

利润跌27%:快手只剩“可灵”这张牌?

头条要闻

20万飞天茅台搭售40万黔茅酒 老板参加"峰会"后称被耍

头条要闻

20万飞天茅台搭售40万黔茅酒 老板参加"峰会"后称被耍

体育要闻

如果雷霆拼图是这水平 马刺确实打不过

娱乐要闻

林俊杰七七与大哥嫂子的瓜剪不断理还乱

财经要闻

长鑫科技IPO过会,市值会到几万亿?

汽车要闻

新款吉利星愿6.18万起售 一镜到底寻找爆款密码

态度原创

家居
健康
数码
艺术
公开课

家居要闻

蜂鸟餐椅 线面交错

专家教你辨认“正规外泌体”!

数码要闻

618装机最后一环,这台1899元的2K 380Hz电竞屏把FPS体验拉满了

艺术要闻

蚂蚁新总部封顶了!大圆环到底有啥魔力

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版