网易首页 > 网易号 > 正文 申请入驻

余弦相似度可能没用?对于某些线性模型,相似度甚至不唯一

0
分享至

机器之心报道

机器之心编辑部

好不容易找了把尺子,结果尺子会随机伸缩。

在机器学习和数据科学领域,余弦相似度长期以来一直是衡量高维对象之间语义相似度的首选指标。余弦相似度已广泛应用于从推荐系统到自然语言处理的各种应用中。它的流行源于人们相信它捕获了嵌入向量之间的方向对齐,提供了比简单点积更有意义的相似性度量。

然而,Netflix 和康奈尔大学的一项研究挑战了我们对这种流行方法的理解:余弦相似度可能导致任意且毫无意义的结果。

论文地址:https://arxiv.org/pdf/2403.05440v1

余弦相似度通过测量两个向量的夹角的余弦值来度量它们之间的相似性,机器学习研究常常通过将余弦相似性应用于学得的低维特征嵌入来量化高维对象之间的语义相似性。但在实践中,这可能比嵌入向量之间的非标准化点积效果更好,但有时也更糟糕。

图源:https://www.shaped.ai/blog/cosine-similarity-not-the-silver-bullet-we-thought-it-was

为了深入了解这一经验观察,Netflix 和康奈尔大学的研究团队研究了从正则化线性模型派生的嵌入,通过分析得出结论:对于某些线性模型来说,相似度甚至不是唯一的,而对于其他模型来说,它们是由正则化隐式控制的。

该研究讨论了线性模型之外的情况:学习深度模型时采用不同正则化的组合,当对结果嵌入进行余弦相似度计算时,会产生隐式和意想不到的效果,使结果变得不透明并且可能是任意的。基于这些见解,研究团队得出结论:不要盲目使用余弦相似度,并概述了替代方案。

最近,这篇论文在机器学习社区再度引起热议,一篇题为《Cosine Similarity: Not the Silver Bullet We Thought It Was(余弦相似度:不是我们想象的灵丹妙药)》的博客概述了研究内容。

博客地址:https://www.shaped.ai/blog/cosine-similarity-not-the-silver-bullet-we-thought-it-was

有网友表示:「问题没那么严重,相似度指标需要根据嵌入空间进行量身定制,需要测试不同的指标来建立定性评估。」

网友认为余弦相似度应该是一个足够好的方法。毕竟,「根据 OpenAI 关于嵌入的文档,他们还在代码片段中使用了余弦相似度。」

这个结论是怎么得出来的呢?让我们一起看看这篇论文的主要内容,一探究竟。

研究简介

研究团队发现了一个重要问题:在特定场景下,余弦相似度会随意产生结果,这使得该度量方法变得不可靠。

研究着重分析了线性矩阵模型。这类模型能够得到封闭形式的解与理论分析,在推荐系统等应用中被广泛用于学习离散实体的低维嵌入表示。

研究分析了 MF 模型的两个常用训练目标:

其中 X 是输入数据矩阵,A 和 B 是学习到的嵌入矩阵,λ 是正则化参数。

问题根源:正则化与自由度

研究人员发现,第一个优化目标(等同于使用去噪或 dropout 的学习方式)在学习到的嵌入中引入了一个关键的自由度。这种自由度允许对嵌入维度进行任意缩放,却不会影响模型的预测结果。

从数学角度来看,如果 Â 和 B̂ 是第一个目标的解,那么对于任意对角矩阵 D,ÂD 和 B̂D^(-1) 也是解。这种缩放会影响学习到的嵌入的归一化,从而影响它们之间的余弦相似度。

来自论文:《Is Cosine-Similarity of Embeddings Really About Similarity? 》

举两个随意产生结果的例子:

1. 在全秩 MF 模型中,通过适当选择 D,item-item 余弦相似度可以等于单位矩阵。这个奇怪的结果表明每个 item 只与自己相似,而与所有其他 item 完全不相似。

2. 通过选择不同的 D,user-user 余弦相似度可以简化为 ΩA・X・X^T・ΩA,其中 X 是原始数据矩阵。这意味着相似度仅基于原始数据,完全没有利用到学习的嵌入。

线性模型之外

除了线性模型,类似的问题在更复杂的场景中也存在:

1. 深度学习模型通常会同时使用多种不同的正则化技术,这可能会对最终嵌入的余弦相似度产生意想不到的影响。

2. 在通过点积优化来学习嵌入时,如果直接使用余弦相似度,可能会得到难以解释且没有实际意义的结果。

研究人员提出了几种解决这些问题的方法:

  1. 直接针对余弦相似度训练模型,可能需要借助层归一化等技术。
  2. 完全避免在嵌入空间中工作。相反,在应用余弦相似度之前,先将嵌入投影回原始空间。
  3. 在学习过程中或之前应用归一化或减少流行度偏差,而不是像余弦相似度那样仅在学习后进行归一化。

语义分析中余弦相似度的替代方案

在论文的基础上,博客作者 Amarpreet Kaur 归纳了一些可以替换余弦相似度的备选项:

  • 欧几里得距离:虽然由于对向量大小敏感而在文本数据中不太流行,但在嵌入经过适当归一化时可以发挥作用。
  • 点积:在某些应用中,嵌入向量之间的非归一化点积被发现优于余弦相似度,特别是在密集段落检索和问答任务中。
  • 软余弦相似度:这种方法除了考虑向量表示外,还考虑了单个词之间的相似度,可能提供更细致的比较。

图源:https://www.machinelearningplus.com/nlp/cosine-similarity/

  • 语义文本相似度(STS)预测:专门为语义相似度任务训练的微调模型 (如 STSScore) 有望提供更稳健和和更可解释的相似度度量。
  • 归一化嵌入与余弦相似度:在使用余弦相似度之前,应用层归一化等归一化技术能有效提升相似度计算的准确性。

在选择替代方案时,必须考虑任务的具体要求、数据的性质以及所使用的模型架构。通常需要在特定领域的数据集上进行实证评估,以确定最适合特定应用的相似度。

我们经常用「余弦相似度」来计算用户或物品之间的相似程度。这就像是测量两个向量之间的夹角,夹角越小,相似度越高。论文中的实验结果也表明,余弦相似度给出的答案经常与实际情况不符。

在比较简单的线性模型上都已经如此随机,在更复杂的深度学习模型中,这个问题可能会更严重。因为深度学习模型通常使用更多复杂的数学技巧来优化结果,这些技巧会影响模型内部的数值大小,从而影响余弦相似度的计算。

这就像是把一个本来就不太准的测量工具放在一个更复杂的环境中使用,结果可能会更不可靠。因此,需要寻找更好的方法,比如使用其他相似度计算方式,或者研究正则化技术对语义的影响。这提醒大家:在开发 AI 系统时,要多思考、多测试,确保工具真的好用。

对于这项研究的结论,你怎么看?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
记者:森林狼若有意莫兰特,筹码包括兰德尔+迪文琴佐+少量选秀权

记者:森林狼若有意莫兰特,筹码包括兰德尔+迪文琴佐+少量选秀权

懂球帝
2026-05-18 09:06:09
广东实属给力!又拿下一“蛀虫”,真是大快人心了!

广东实属给力!又拿下一“蛀虫”,真是大快人心了!

一口娱乐
2026-05-17 22:19:07
詹姆斯下赛季合理年薪仅2190万!6大热门下家曝光,4队只能开底薪

詹姆斯下赛季合理年薪仅2190万!6大热门下家曝光,4队只能开底薪

钱说体育
2026-05-18 09:05:18
毛主席游天坛时抽烟,陈毅提醒这里禁止吸烟,主席的态度值得点赞

毛主席游天坛时抽烟,陈毅提醒这里禁止吸烟,主席的态度值得点赞

近史谈
2026-05-18 02:16:19
我勒个去!一个二当家,拿着1亿大合同,季后赛单场3分

我勒个去!一个二当家,拿着1亿大合同,季后赛单场3分

球毛鬼胎
2026-05-18 10:33:09
《主角》扎心真相:易青娥这辈子,所有的不幸,都源于认知差

《主角》扎心真相:易青娥这辈子,所有的不幸,都源于认知差

怂熊剧场
2026-05-18 07:56:50
至今,全球还没有完成统一的10个国家,你知道几个?

至今,全球还没有完成统一的10个国家,你知道几个?

七号说三国
2026-04-19 19:35:33
她和奥运冠军马琳离婚分走千万,再婚嫁给金融学霸,如今怎样了?

她和奥运冠军马琳离婚分走千万,再婚嫁给金融学霸,如今怎样了?

小偀说故事
2026-05-17 17:30:54
上海最牛外援运动战0分,遭到弃用,3场都拉胯,被周琦打成纸老虎

上海最牛外援运动战0分,遭到弃用,3场都拉胯,被周琦打成纸老虎

南海浪花
2026-05-18 08:24:27
翁帆:杨振宁逝世后,继子继女与她不来往

翁帆:杨振宁逝世后,继子继女与她不来往

Thurman在昆明
2026-05-17 22:16:29
去年休赛期千万级别引援!前男篮集训国手后卫被上海主帅遗忘

去年休赛期千万级别引援!前男篮集训国手后卫被上海主帅遗忘

狼叔评论
2026-05-18 01:58:16
莫言:一辈子也就那么回事,吃得饱,穿得暖就好了,别自寻烦恼

莫言:一辈子也就那么回事,吃得饱,穿得暖就好了,别自寻烦恼

杏花烟雨江南的碧园
2026-05-08 13:15:03
一旦台海战争爆发,可能造成上亿伤亡,解放军或需解决4大战场

一旦台海战争爆发,可能造成上亿伤亡,解放军或需解决4大战场

星星会坠落
2026-04-14 01:10:20
特朗普访华最大的输家出现了!邱毅:就是管台湾的那个人

特朗普访华最大的输家出现了!邱毅:就是管台湾的那个人

阿龙聊军事
2026-05-17 06:32:52
无价广告!黄仁勋在北京庆云楼吃饭,老板娘全程亲自服务并合影了

无价广告!黄仁勋在北京庆云楼吃饭,老板娘全程亲自服务并合影了

火山詩话
2026-05-18 07:09:03
去越南旅游的华人感慨:不要信媒体吹牛,越南相当于我国三线城市

去越南旅游的华人感慨:不要信媒体吹牛,越南相当于我国三线城市

椰青美食分享
2026-05-17 16:16:58
西媒:穆里尼奥面临的最大挑战,就是获得姆巴佩真正的尊重

西媒:穆里尼奥面临的最大挑战,就是获得姆巴佩真正的尊重

懂球帝
2026-05-17 12:45:29
上交“储才计划”女生用豆包AI伪造收据,私吞项目主力男队友5000块,学校选择调解但补偿至今没给

上交“储才计划”女生用豆包AI伪造收据,私吞项目主力男队友5000块,学校选择调解但补偿至今没给

少爷写春秋
2026-05-17 00:02:53
美国人解析中国人和印度人最大的区别,印度网友:我们是超级大国

美国人解析中国人和印度人最大的区别,印度网友:我们是超级大国

王嚾晓
2026-04-11 15:22:07
尤文0-2佛罗伦萨跌至第六:1亿欧损失当头,四重困局谁能破解?

尤文0-2佛罗伦萨跌至第六:1亿欧损失当头,四重困局谁能破解?

落夜足球
2026-05-17 21:10:28
2026-05-18 10:43:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13009文章数 142650关注度
往期回顾 全部

科技要闻

国产大模型集体更新后能力有多强?

头条要闻

媒体:特朗普就台湾问题说了"大实话" 绿营感受到震撼

头条要闻

媒体:特朗普就台湾问题说了"大实话" 绿营感受到震撼

体育要闻

生死战只拿3分的核心,还有留的必要吗?

娱乐要闻

小S晒全家福怀念大S,爷爷奶奶最疼姐姐

财经要闻

前4月工业生产较快增长 失业率5.3%

汽车要闻

小米YU7 GT定档5月21日19:00上市 跑车级轿跑SUV

态度原创

本地
游戏
时尚
教育
公开课

本地新闻

用苏绣的方式,打开江西婺源

豪掷5000万改画风!《无主之地》差点变成地摊货

夏天裤子不用多买,提前准备几条休闲的阔腿裤,百搭舒适显瘦

教育要闻

高考作文 中美关系新材料来啦,这次来访的新提法,一定要掌握

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版