网易首页 > 网易号 > 正文 申请入驻

音乐的指纹:听歌识曲app是怎么识别音乐的?算法原理揭秘

0
分享至

有没有过这样的时刻:在商场、咖啡厅里听到一首歌很上头,急切想知道歌名?

或是听到一段熟悉的旋律,但就是想不起歌曲的名字?

这时候听歌识曲功能就发挥作用了,在环境中听几秒钟,歌手和歌名便精准地出现在了屏幕上。

提到听歌识曲,就不得不提到最为主流的软件之一——Shazam。它是识曲技术的先行者,自1999年创立以来,Shazam一直在不断完善技术,并在2018年被苹果以4亿美元收购,成为了iPhone自带的识曲工具。如今,Shazam凭借庞大的用户群和全球海量的音乐数据库,保持着识曲技术领域的领先地位。


数据显示,Dance Monkey 是被Shazam搜索次数最多的歌曲,达4100万次; 被搜索最多的艺人是Drake,搜索次数达3.5亿次。

Shazam的识曲界面如下, 无论是前奏、主歌还是副歌,几秒之内就能够给出准确的歌名和歌手信息。


其他主流的听歌软件如网易云音乐、Spotify等也逐渐有了听歌识曲功能。


那么,听歌识曲软件是怎么在如此短的时间内,从嘈杂的环境中准确识别出歌名的?

今天我们就来揭秘音乐识别的工作原理。

1. 声音采样:音频数字化

音乐识别的第一步就是“听”声音。

但机器是怎么“听”到歌的呢?我们首先回顾一下声音的本质:

声音本质上是一种振动,在空气或水等介质中传播。

被人耳接收后,人耳会把这种振动通过耳膜等组织传导为大脑能识别的信号。

机器听歌的原理也类似,它把声音的振动转化为电信号,再把电信号转变成计算机可处理的数字信号。

这个把连续的声音波形转化为离散数字信号过程就叫做采样。采样率决定了信号的捕捉效果。采样率越高,点越密集,原始声音被保留得越完整。下图从左到右展示了采样率由低到高的声音还原效果。


根据 Nyquist-Shannon 定理,为了捕捉到人类可听的频率(20Hz - 20,000 Hz),采样率需要是其两倍,因此常用 44,100 Hz 的采样率。

现在我们通过采样获得了声音信号,但这只是「听歌识曲」的第一步。我们还需要提取这些声音中的特征,转换为能被识别的模式。

2. 声音特征提取:从时域到频域

当听歌识曲软件听到一段声音时,最先捕捉到的是音频的时域信号。

时域信号是最直接的声音表现形式(也就是我们通常在录音软件中看到的波形图),表示声音振幅如何随时间而变化。

但是,时域信号主要呈现的是声音随时间的变化,很难直观反映出声音中包含的频率成分。因此,为了更有效地分析声音的特征,我们需要将其从时域转换到频域。

傅里叶变换(Fourier Transform)正是这样一种工具,可以把时域信号分解为不同频率成分,帮助我们清晰地看到声音的频率和振幅信息。

这个方法可以追溯到19 世纪初,法国数学家傅里叶(Jean-Baptiste Joseph Fourier)发现,任何复杂的时域信号都可以分解为一系列简单正弦波的叠加。这一分解过程就被称为傅里叶变换,叠加的这些正弦波则被称为傅里叶级数。

通过傅里叶变换,声音被进一步分解为一系列简单的正弦波,每个正弦波都有特定的频率、振幅和相位。


下图展示了傅里叶级数如何将一个 1 Hz 的方波在时域中分解为多个正弦波的频域组合,呈现出其各个频率成分和振幅。


在音乐分析中,通常使用的是离散傅里叶变换(DFT),因为音乐信号是离散采样 的数字信号。DFT 能将这些离散数据转换为频域信息,更适合计算机处理。

然而,由于DFT的算法复杂度,计算量耗时非常大。

为了优化这一过程,快速傅立叶变换(FFT)作为 DFT 的一种改进算法应运而生。FFT是一种分而治之算法,以递归方式将 DFT 划分为许多较小的 DFT,大大加快了变换速度。正因为 FFT 的高效性,它也被广泛应用于数字信号处理、图像处理、音频分析等领域。

通过傅里叶变换,音频信号就从「时域」转换到了「频域」,以显示音频中每一个时间点包含的频率及其振幅。频谱图能够帮助我们进一步可视化这些信息。

3. 频域信息的可视化:频谱图

频谱图是一种特殊的频域图,它呈现了音频信号的时间、频率和强度三维信息。

频谱图就像是歌曲的「心电图」,记录了歌曲每一秒的「心跳」——也就是频率和振幅,很直观地向我们展示了信号中哪些频率在什么时候出现,它们的强弱关系如何。歌曲特征提取的本质就是在这心电图中找到最明显的跳动。


▲ 图 / researchgate

上图就是一个典型的频谱图:X 轴表示时间,Y 轴表示频率,颜色深浅表示振幅的大小。

我们已经看到,频谱图包含了音频中独特的频率信息,那么识曲软件是如何提取这些信息并进行比对的?

4. 音频指纹:提取频率特征

识曲的关键就在于音频指纹就像人的指纹是独一无二的,每首歌也有自己独特的指纹,音频指纹就是音频信号的数字DNA。

提取指纹的过程大致如下:音频被拆分成若干小块,进而提取音频中的显著频率峰值每个片段的峰值组合就形成了整首歌的音频指纹。

下图展示了一个语音文件在各区段被检测到的频谱图峰值示例。这些峰值点代表了音频中最显著的频率成分,也就是音频指纹的核心构成。


▲ 图 / researchgate

通常情况下,不同的频率范围会被分别处理,这样能够确保对低音、中音和高音的均衡分析,避免混淆或漏掉某些音乐元素。

每首歌都会被转换为一个独特的音频指纹,所以就算是同一首歌的不同版本也会因为频率、振幅和时间上的差异而生成不同的指纹,以确保后续最精准的匹配。

5. 在数据库中寻找匹配:哈希表与高效匹配

现在我们有了这首歌的「指纹」,接下来就是要在已有的歌曲数据库中找到与它匹配的指纹,来识别出具体的歌曲。

听歌识曲技术将每段音频指纹转换成哈希值(一种编码),这样可以加速在数据库中查找匹配(因为比较哈希值比起去比较整段音频要快得多)。软件会将用户录音的指纹与数据库中的指纹哈希值比对,找到指纹匹配的歌曲。

下面的4幅图展示了从音频信号提取特征到生成哈希值的完整流程:


▲ 图 / Wang,A.L.-C. (2003). An Industrial-Strength Audio Search Algorithm,Shazam

A. 展示了音频信号的频谱图,显示频率随时间的变化

B. 从中提取峰值,形成星座图(星座图就是把音频中最显著的频率点形成的图,就像把最闪的星星连成星座一样)

C. 把锚点与目标区域内其他点配对,记录频率和时间差来生成组合哈希

D. 生成哈希值,用于后续的音频匹配与识别

最后,识曲算法会考虑时间差,并比对音频片段和数据库中歌曲的时间偏移,确保这些指纹的时间序列匹配,这样可以确保录制歌曲中的任意片段也能准确识别。

让我们总结整个过程,理解Shazam 等识曲app是如何在几秒内完成识别的:

Step1:采样获取录制音频样本(只需要其中的一个小片段)

Step2:通过快速傅里叶变换,音频从时域被转换成频域信息

Step3:频谱图提取关键峰值作为歌曲指纹

Step4:数据库匹配:通过哈希值在数据库中找到指纹匹配的歌曲

Step5:返回结果:匹配成功后,将歌曲名称和信息返回给用户。

6. 其他广泛应用

如今,音乐识别的应用场景已经非常丰富,除用来识别歌曲,还可以用于版权监控保护,检测音乐中的采样和相似度,甚至可以用于找出某些流派的起源和灵感来源。

这种特征提取和匹配技术也为个性化音乐推荐提供了基础。推荐系统通过深度学习分析音乐的情感、风格判断歌曲的情绪(如欢快、悲伤、激动)、根据音乐的旋律、节奏、情感等特征来挖掘用户的喜好,不仅提高了推荐的准确性,而且能为用户发现更多与其品味相符的音乐。

这块技术也正在从纯音频识别拓展到多模态识别,就是音频、视频、歌词、封面图等多模态信息综合起来(比如说视频中的视觉元素与音频一起识别),提高识别的准确性。

关注DataCafe

获取更多科技解读,洞察新鲜数据趋势

参考资料:

[1]Shazam Wang, A. (2003). An Industrial Strength Audio Search Algorithm.

[2]https://www.hollyland.com/blog/tips/what-is-sample-rate-in-audio

[3]https://www.ifm.com/de/en/shared/technologies/real-time-maintenance

[4]https://dewesoft.com/blog/guide-to-fft-analysis

[5]https://www.techaheadcorp.com/blog/decoding-shazam

[6]https://studyelectrical.com/2023/05/frequency-domain-analysis.html

本文转载自《DataCafe》微信公众号

《物理》50年精选文章

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
冷冻馒头不能吃!冷冻时间超过两天会长黄曲霉素

冷冻馒头不能吃!冷冻时间超过两天会长黄曲霉素

闪电新闻
2024-11-12 17:11:40
火箭激战快船!阿门爆发 伊森秀隔扣 格林高效输出

火箭激战快船!阿门爆发 伊森秀隔扣 格林高效输出

胖子喷球
2024-11-14 10:10:22
萝莉岛名单白热化:泰勒、霉霉和LadyGaga粉丝互撕,更多照片曝光

萝莉岛名单白热化:泰勒、霉霉和LadyGaga粉丝互撕,更多照片曝光

来条娱吃
2024-11-11 16:21:03
真敢说!前国脚戴琳:我们不是离不开球迷,但离不开发工资的人

真敢说!前国脚戴琳:我们不是离不开球迷,但离不开发工资的人

侧身凌空斩
2024-11-13 12:40:27
清算来了!特朗普把防疫不利的责任归咎给福奇,上台后将起诉福奇

清算来了!特朗普把防疫不利的责任归咎给福奇,上台后将起诉福奇

现代春秋
2024-11-13 19:24:48
特朗普宣布多项重要任命!马斯克将担任→

特朗普宣布多项重要任命!马斯克将担任→

第一财经资讯
2024-11-13 09:39:51
法国“断定”中国不敢取消200亿空客订单,对电动车下狠手!

法国“断定”中国不敢取消200亿空客订单,对电动车下狠手!

现代小青青慕慕
2024-11-14 04:49:34
看完感觉乳腺都通畅了!果然整顿家庭纠纷还得是00后啊,太刺激了

看完感觉乳腺都通畅了!果然整顿家庭纠纷还得是00后啊,太刺激了

滑稽斑马呀
2024-11-13 16:22:18
清华“薛蟠事件”走红,高材生为红颜拳打北航老师,北大在看笑话

清华“薛蟠事件”走红,高材生为红颜拳打北航老师,北大在看笑话

熙熙说教
2024-11-12 17:54:46
新疆“爆改”沙漠 光伏板整齐铺起“草方格地毯”

新疆“爆改”沙漠 光伏板整齐铺起“草方格地毯”

海外网
2024-11-14 09:58:44
大陆收台怎么办?特朗普打开天窗说亮话,两岸统一大局已定!

大陆收台怎么办?特朗普打开天窗说亮话,两岸统一大局已定!

前沿知识局
2024-11-13 09:47:59
售价39.88万-48.88万元,2025款奥迪Q5L正式上市

售价39.88万-48.88万元,2025款奥迪Q5L正式上市

风谈笔录
2024-11-14 07:20:03
中国10大最毒零食排行榜,常吃等于“慢性自杀”

中国10大最毒零食排行榜,常吃等于“慢性自杀”

新兴网评
2024-10-22 00:57:07
因ACL手术时细菌感染,皇马19岁青训球员库卡隆宣布退役

因ACL手术时细菌感染,皇马19岁青训球员库卡隆宣布退役

懂球帝
2024-11-13 20:38:42
没你不行李凯尔缺阵勇士替补被爆 希尔德正负值-21波杰姆-19

没你不行李凯尔缺阵勇士替补被爆 希尔德正负值-21波杰姆-19

直播吧
2024-11-13 14:04:18
花式对比!约基奇场均29.7+13.7+11.7 分别比3位名宿生涯最高还高

花式对比!约基奇场均29.7+13.7+11.7 分别比3位名宿生涯最高还高

直播吧
2024-11-14 08:38:12
徐枫灿,女,汉族,1999年10月出生,2017年9月入伍……

徐枫灿,女,汉族,1999年10月出生,2017年9月入伍……

新浪财经
2024-11-13 08:39:08
解放军彻底大怒!谈不了就不要谈,仅一天内,南海直接冲上热搜

解放军彻底大怒!谈不了就不要谈,仅一天内,南海直接冲上热搜

铁血论古今
2024-11-13 13:26:06
万人大军打不了硬仗?俄乌战场上朝鲜军队表现一般,没想象中强!

万人大军打不了硬仗?俄乌战场上朝鲜军队表现一般,没想象中强!

小lu侃侃而谈
2024-11-12 21:25:55
14分钟投了10个三分!文班亚马上半场砍下24分!

14分钟投了10个三分!文班亚马上半场砍下24分!

直播吧
2024-11-14 10:14:47
2024-11-14 10:34:44
中国物理学会期刊网
中国物理学会期刊网
最权威的物理学综合信息网站
3439文章数 21776关注度
往期回顾 全部

科技要闻

大众最好的路:成中国新能源的海外代理人

头条要闻

耗资20多亿的古城日均卖票不足20张 省委书记步行察看

头条要闻

耗资20多亿的古城日均卖票不足20张 省委书记步行察看

体育要闻

卡尔伯格:肩负瑞典乒乓的荣光

娱乐要闻

李子柒归来仍是顶流,更是清流!

财经要闻

楼市"税收新政",影响有多大?最新解读

汽车要闻

广汽传祺S7领衔 广汽集团自主新车阵容发布

态度原创

时尚
游戏
本地
亲子
军事航空

外套再好看,也要选对内搭才出彩!

晨报|《DQ3RE》M站开分 魔兽怀旧服明年迎来5.0

本地新闻

一夜之间,到底多少人在寻找邪恶熏鸡?

亲子要闻

在路边跳舞的超可爱宝宝,她真的好像一个糯米团子啊!

军事要闻

海陆空三军首次在珠海联合召开发布会

无障碍浏览 进入关怀版