网易首页 > 网易号 > 正文 申请入驻

3 秒即可模拟任何人声音,微软发布最新语音模型,网友担忧:电信诈骗门槛或再被降?

0
分享至

整理 | 苏宓

出品 | CSDN(ID:CSDNnews)

过去一年以来,随着 Stable Diffusion 2.0 模型的开源,以及 ChatGPT 聊天机器人的面世,AI 在图像、文本方面取得了十足的进展。

近日,微软助力 AI 在语音领域再下一城,其最新推出了一款名为 VALL-E 的全新文本转语音人工智能模型,可以基于仅有 3 秒钟的语音样本,生成几近真实的人类声音!

只需 3 秒,就能模拟出任何声音

为了向外界公布这一则好消息,微软研究人员特别分享了一篇长达 16 页标题为《Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers》的论文(https://valle-demo.github.io/)进行了详述。

让人称奇的是,VALL-E 只需要对声音进行三秒钟的采样,就可以准确地模拟出该种声音的语音。

就像这样(某个人说话的声音):

基于 VALL-E,合成了语音示例 1:

示例 2:

简单来看,一旦 VALL-E 学会了某人特定的声音之后,那么就可以合成这个人说任何话的音频,而且还可以保留说话者的情绪基调和声学环境,这意味着文本到语音合成(TTS,Text-to-Speech)技术的一次重大突破。

那么,微软是如何实现这么神奇的技术的?

VALL-E 工作原理

根据官方介绍,VALL-E 被称之为「神经编解码语言模型」,是从现成的神经音频编解码器模型中提取的离散代码训练而成。它被建立在一项名为 EnCodec(https://github.com/facebookresearch/encodec)的技术之上。EnCodec 是 Meta 公司在 2022 年 10 月最新推出的基于深度学习的音频编解码器,是开源的,该技术支持单声道 24kHz 音频和立体声 48kHz 音频。

Encodec 技术

与其他常见的通过操纵波形合成语音的 TTS 方法不同,过去语音合成的方式可能主要是识别音素→旋律→波形的过程,而 VALL-E 则是通过音素→离散代码→波形这样的流程,存在一定的区别。

具体而言,VALL-E 将 TTS 视为一个条件语言建模任务,根据音素和声码提示生成离散的音频编解码代码,对应于目标内容和说话人的声音。

在实现方式上,它基本上分析了一个人的声音,继而通过 EnCodec 将该信息分解成离散的组件(称为 "令牌"),并使用训练数据来匹配它所 "知道的 "内容,进而生成该声音在三秒钟的样本之外说其他短语的声音。

正如微软在 VALL-E 论文中所说:

为了合成个性化的语音(例如,0-shot TTS),VALL-E 以 3 秒钟的样本录音和音素提示的声学标记为条件,生成相应的声音内容,这些声学标记分别制约着说话人和内容信息。最后,生成的声音内容被用来与相应的神经编解码器合成最终波形。

微软在一个由 Meta 组建的名为 LibriLight 的音频库上训练 VALL-E 的语音合成能力。它包含了来自 7000 多名演讲者的 60,000 小时的英语演讲内容,大部分来自 LibriVox 公共领域的有声读物。

在预训练阶段,VALL-E 基于这些训练数据,微软官方称,“这比现有系统大数百倍”。这也为 VALL-E 真实且精准地模仿人类语言提供了一定的基础。

微软在 VALL-E 示例网站(https://valle-demo.github.io/)上提供了数十个人工智能模型运作的音频例子。

值得注意的事,VALL-E 具备语境学习能力,并可用于合成高质量的个性化语音。

以下是"Speaker Prompt "的「生气」声音,这是指提供给 VALL-E 必须模仿的三秒钟音频。

以下是 VALL-E 模型输出「生气」语气的声音。

对比数据结果表明,VALL-E 在语音自然度和说话人相似度方面明显优于最先进的 TTS 系统,并在合成中保留说话人的情感和声音提示的声学环境。

如何防范 VALL-E 可能带来的安全问题?

在应用维度上,微软的研究工程师们也做了一些设想,其推测 VALL-E 可用于高质量的文本转语音应用、语音编辑。当然,也可以与其他生成类的人工智能模型(如 GPT-3)结合,可用于音频内容的创作。

不过,不怕技术本身带来的影响,就怕有心人会利用 VALL-E 这类先进的技术“作恶”,上文中仅是通过示例的声音,我们几乎难辨究竟是真人说的话还是 VALL-E 说的话。

对此,不少网友的第一反应也是:电话诈骗的门槛又被降低了一步!

也正如一位网友分享道:

如果有人玩过 "Uplink",这让我想起了黑客,你给系统管理员打电话,录下他们说 "你好 "的几句话,然后你的电脑根据这几句话构建语言,让他们说 "你好,我是系统管理员。我的声音是唯一标识,可以进行安全验证。"

我一直认为这是不可能的,你不可能用那么少的数据来完成这个任务。现在看来,我可能错了......

也许正是担忧 VALL-E 有可能会助长恶作剧和欺骗等行为的出现,当前微软没有对外开源 VALL-E 的代码。研究人员似乎也意识到了这项技术可能带来的潜在社会危害。因此在论文的结论一节中,他们写道:

“由于 VALL-E 可以合成说话者身份的语音,它可能会带来滥用模型的潜在风险,如欺骗语音识别或冒充特定说话者。为了减轻这种风险,有可能建立一个检测模型来判别一个音频片段是否是由 VALL-E 合成的。在进一步开发模型时,我们还将把微软 AI 原则付诸实践。”

更多细节技术内容详见论文地址:https://arxiv.org/pdf/2301.02111.pdf

https://www.rockpapershotgun.com/microsoft-unveil-vall-e-their-creepy-ai-that-can-mimic-voices#comments

https://valle-demo.github.io/

https://arstechnica.com/information-technology/2023/01/microsofts-new-ai-can-simulate-anyones-voice-with-3-seconds-of-audio/

《2022-2023 中国开发者大调查》重磅启动,欢迎扫描下方二维码,参与问卷调研,更有 iPad 等精美大礼等你拿!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
鹤洞地块2.7万/㎡成交!广钢业主:MD不如流拍!

鹤洞地块2.7万/㎡成交!广钢业主:MD不如流拍!

爱看剧的阿峰
2024-06-26 21:14:42
26万志愿军入朝后,金日成索要指挥权,彭总反问了他一句什么话?

26万志愿军入朝后,金日成索要指挥权,彭总反问了他一句什么话?

超人强动物俱乐部
2024-06-26 19:20:16
陕西这所被误解的大学,不是警校而是军校,待遇不可小觑!

陕西这所被误解的大学,不是警校而是军校,待遇不可小觑!

妮子说美食
2024-06-26 23:59:46
杜兰特正式确认,1换3交易达成,勇士要送走2人,汤普森已落选

杜兰特正式确认,1换3交易达成,勇士要送走2人,汤普森已落选

体坛大辣椒
2024-06-27 07:27:57
中国U18女篮最新比赛+6月29日半决赛,17岁的张子宇统治力太恐怖

中国U18女篮最新比赛+6月29日半决赛,17岁的张子宇统治力太恐怖

开成运动会
2024-06-27 01:07:20
正在被淘汰的4种电器,都是花钱买教训,你家中了几个呢?

正在被淘汰的4种电器,都是花钱买教训,你家中了几个呢?

最潮家居评
2024-06-21 23:55:33
李莉女士怀抱着无畏的精神,披露国际风云,却不幸陷入网暴漩涡中

李莉女士怀抱着无畏的精神,披露国际风云,却不幸陷入网暴漩涡中

橘色数码
2024-06-06 12:51:20
迪士尼雷鸣山漂流安全带黄梅天“滂臭”引热议,闻过实在“难忘”

迪士尼雷鸣山漂流安全带黄梅天“滂臭”引热议,闻过实在“难忘”

周到上海
2024-06-26 18:59:40
笑死了!秦升原本已经跑路,通知补发工资回来被捕,曝刑期13年

笑死了!秦升原本已经跑路,通知补发工资回来被捕,曝刑期13年

黑炭生活日记
2024-06-27 02:21:04
宝马X5新车型发布!新增多项配置/内饰更惊艳

宝马X5新车型发布!新增多项配置/内饰更惊艳

爱卡汽车
2024-06-24 18:45:13
笑不活了!风扇制冷神器义乌做出来了,大家却笑死在评论区里

笑不活了!风扇制冷神器义乌做出来了,大家却笑死在评论区里

最潮家居评
2024-06-24 14:52:02
国台办:支持两岸在体现一个中国原则的“九二共识”上开展对话协商

国台办:支持两岸在体现一个中国原则的“九二共识”上开展对话协商

央广网
2024-06-26 13:30:16
菲参议院针对美军方抹黑中国疫苗举行听证会 中使馆回应

菲参议院针对美军方抹黑中国疫苗举行听证会 中使馆回应

新京报
2024-06-26 11:21:26
大爆冷!华裔天才少女归来!挽救赛点逆转世界第5,强势挺进八强

大爆冷!华裔天才少女归来!挽救赛点逆转世界第5,强势挺进八强

大秦壁虎白话体育
2024-06-27 01:09:35
憋大招!特朗普心腹提前交底:与中国脱钩、进军亚太、重启核试

憋大招!特朗普心腹提前交底:与中国脱钩、进军亚太、重启核试

通政司知事
2024-06-26 14:44:34
刘亦菲谈黄亦玫四段感情,方协文最美好,网友:现实谁会跟他离婚

刘亦菲谈黄亦玫四段感情,方协文最美好,网友:现实谁会跟他离婚

申铃
2024-06-27 04:04:21
复盘申花3-0客家:马纳法边路制霸助力胜局,徐皓阳打出高级水准

复盘申花3-0客家:马纳法边路制霸助力胜局,徐皓阳打出高级水准

里芃芃体育
2024-06-27 00:05:08
嫦娥六号归来各国怎么看?欧洲表态令人气愤,日本一眼看到了重点

嫦娥六号归来各国怎么看?欧洲表态令人气愤,日本一眼看到了重点

嘿哥哥科技
2024-06-26 15:48:04
49岁李健带老婆北戴河看房,均价高达2.5w,本人个子很矮衣服包浆

49岁李健带老婆北戴河看房,均价高达2.5w,本人个子很矮衣服包浆

山野下
2024-06-26 14:14:22
凯尔特人的新赛季赛前训练衫。花纹挺美,但感觉有点难驾驭……

凯尔特人的新赛季赛前训练衫。花纹挺美,但感觉有点难驾驭……

直播吧
2024-06-26 16:29:16
2024-06-27 08:22:44
CSDN
CSDN
成就一亿技术人
24748文章数 241827关注度
往期回顾 全部

科技要闻

OpenAI在国内的两条应用之路走不通了?

头条要闻

欧洲杯-C罗怒怼裁判染黄 格鲁吉亚爆冷2-0胜葡萄牙

头条要闻

欧洲杯-C罗怒怼裁判染黄 格鲁吉亚爆冷2-0胜葡萄牙

体育要闻

战胜心中的魔鬼,36岁的他上演欧洲杯首秀

娱乐要闻

冯绍峰带儿子看舞台剧,想想更像妈妈

财经要闻

曹远征:不能被"产能过剩"的概念所困惑

汽车要闻

37.99万起坐拥"陆地空客" 翼真L380上市

态度原创

本地
艺术
数码
游戏
军事航空

本地新闻

冷知识:东北雪糕才是最早的网红雪糕

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

数码要闻

苹果官网上线“抢眼色彩”专区,提供贝尔金移动电源等多种配件

6.27魔兽世界国服软启动,官宣正式服开服时间,玩家该如何开荒?

军事要闻

绍伊古被国际刑事法院发逮捕令 俄方回应

无障碍浏览 进入关怀版