网易首页 > 网易号 > 正文 申请入驻

向量将死,哈希是 AI 未来

0
分享至

作者 | Hamish Ogilvy

编译 | 冉启行

校对 | 青暮

人工智能是建立在向量算法的基础上的,但最新的进展表明,对于某些 AI 应用程序而言,它们可以使用其他二进制来表示(例如神经哈希),以提供更小的内存占用和更快的反馈速度。

事实上,人工智能的许多领域都可以从向量变为基于哈希的结构,带来飞跃的提升。本文将简要介绍哈希背后的应用逻辑,以及它为什么可能会成为 AI 的未来。

1

哈希

哈希函数(Hash function):一个哈希函数H(x)可用于将任意大小的数据 x 映射成固定大小(通常选256bit)的值。返回值(映射后的值)又称为哈希值(hash values)、摘要(digests)或哈希(simply hashes)。

哈希在数据的准确性识别、数据存储大小、性能、检索速度等方面具有突出的优势。更重要的是,它们本质上是概率性的,因此多个输入项可以共享相同的哈希值。

在向量表示中,浮点数往往是首选的数据表示形式,尽管它们在本质上比哈希更绝对,但它们却并不精确。

2

浮点数

要了解 AI,首先需要了解计算机是如何表示非整数数字的。

对于微小的数值变化(关于向量计算),二进制表示也可以有很大的不同,这些数值变化对模型预测几乎没有影响。

例如:取 0.65 vs 0.66 在 float64(64 位浮点)二进制中可以分别用这两个二进制数表示:

  • 11111111100100110011001100110011001100110011001100110011001101

  • 11111111100101000111101011100001010001111010111000010100011111

从这里可以非常清楚看到,虽然从 0.65 到 0.66 仅仅只有 1% 的大小变化,但是转化为二进制后,在 64 位数字中就有 25 位是不同的,差别巨大。

对于神经元来说,这听起来像是一件愚蠢的事情,人类的大脑肯定不会这样工作,它们显然不会使用浮点二进制表示来存储数字,除非有人可以记住圆周率小数点后六万多位。

事实上,我们的大脑神经网络是非常形象的,在处理复杂的小数和分数方面非常擅长。但是,当我们算到一半或四分之一时,就会立即想象出一些东西,比如半杯水、四分之一杯水或者披萨等其他东西,可能根本没有想到尾数和指数。

一个常用的提高浮点运算速度和使用更少空间的方法是将分辨率降低到 float16(16位),甚至是float8 (8位),它们的计算速度非常快,但缺点是,它会造成分辨率的明显下降。

由于浮点数运算很慢,所以它真的没有一点优势吗?

答案是否定的。芯片硬件和它们的指令集被设计来提高效率,并使更多的计算并行处理,而 GPU 和 TPU 现在正在被广泛使用,因为它们处理基于浮点的矢量算法更快。

3

神经哈希

事实证明,二进制的计算速度比基于浮点数的算术快得多。那么,如果可以在局域敏感的二进制哈希空间中表示 0.65 和 0.66,这能使模型在推理方面更快吗?

研究表明,有一系列哈希算法的确可以做到这一点,它被称为局部敏感哈希(LSH)。原始项越接近,其哈希中的位也越接近相同。

不过,这个概念并不是什么新鲜事,只是最新的技术发现了更多的优势。从历史上来看,LSH 使用了诸如随机投影、量化等技术,但它们的缺点是需要较大的哈希空间来保持精度,因此其优点在某种程度上被抵消了。

对于单个浮点数来说这是微不足道的,但是具有高维数(多个浮点数)的向量呢?

因此,神经哈希的新技巧是用神经网络创建的哈希替换现有的 LSH 技术,以此得到的哈希值可以使用非常快速的 Hammin 距离计算来估计它们的相似度。

这听起来虽然很复杂,但实际上并不太难。总体来看,神经网络就是优化了一个哈希函数,具体表现如下:

  • 与原始向量相比,几乎完美地保留了所有的信息;

  • 生成比原始向量尺寸小得多的哈希;

  • 计算速度明显更快;

也就是说,以一种较小的二进制表示,它不仅可用于非常快速的逻辑计算,并且信息分辨率也是几乎不变的,是一个两全其美的解决方案。

一般研究用于密集信息检索近似最近邻 (ANN)时,往往可以使用向量表示来搜索信息,这样可以帮助用户找到概念上相似的一些东西。但是,哈希中的局部敏感性却拥有更加强大的优势。

4

密集信息检索

互联网时代,数据库是不可计数的,但搜索索引却寥寥无几,而且大多数索引都是基于相同的老技术,这主要是因为历史上语言是一个基于规则的问题。

标记、同义词、词干提取、词形还原等问题占据了许多天才的整个职业生涯,但仍未完全解决。

谷歌创始人拉里佩奇(Larry Page)曾说过,在我们的有生之年,“搜索”并不能得到解决。

想想看,这一代如此绝顶聪明的人,投资数十亿美元为何还得不到解决?

很明显,搜索技术落后于数据库主要是由于语言问题,我们在过去几年中看到了语言处理方面的革命,而且还在加速。并且从技术角度来看,我们还将看到基于神经的哈希消除搜索和数据库技术的障碍。

参考来源:https://medium.com/@hamishogilvy/vectors-are-over-hashes-are-the-future-of-ai-98c4dc33d8ee

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
这回藏不住了!国乒长腿队花要去日本了,被人拍到跟男友牵手约会

这回藏不住了!国乒长腿队花要去日本了,被人拍到跟男友牵手约会

三十年莱斯特城球迷
2024-11-16 01:11:33
螺肉老板娘因身材发育过猛引全网围观:卖“肉”还是卖“肉”?

螺肉老板娘因身材发育过猛引全网围观:卖“肉”还是卖“肉”?

书画艺术收藏
2024-11-14 19:30:02
364元/斤!杭州刚刚上市!一口咬下去就是7块钱

364元/斤!杭州刚刚上市!一口咬下去就是7块钱

FM93浙江交通之声
2024-11-15 10:59:11
两大利空!A股连续大跌,牛市结束了?游资、散户遭精准“爆破”

两大利空!A股连续大跌,牛市结束了?游资、散户遭精准“爆破”

看财经show
2024-11-15 17:43:40
俄:普京亲自处理乌问题,不需要特使

俄:普京亲自处理乌问题,不需要特使

参考消息
2024-11-15 15:27:07
上海一英俊小伙只因长得太帅,被3名富婆吃干抹净,女禽兽也存在

上海一英俊小伙只因长得太帅,被3名富婆吃干抹净,女禽兽也存在

红豆讲堂
2024-11-14 10:44:00
世预赛印尼0-4日本:日本“放水说”不攻自破,这结果对国足有利

世预赛印尼0-4日本:日本“放水说”不攻自破,这结果对国足有利

体育世界
2024-11-15 23:17:14
被提名国务卿,卢比奥会拿台湾问题大作文章吗?

被提名国务卿,卢比奥会拿台湾问题大作文章吗?

看看新闻Knews
2024-11-14 19:10:03
11月15日俄乌:神话破灭,开始加速

11月15日俄乌:神话破灭,开始加速

山河路口
2024-11-15 13:58:50
德国军工,正在疯狂扩产能|地球知识局

德国军工,正在疯狂扩产能|地球知识局

地球知识局
2024-11-14 12:20:24
特朗普的60%关税大棒打向中国!美前财长放话:中国必须就范!

特朗普的60%关税大棒打向中国!美前财长放话:中国必须就范!

魏家东
2024-11-15 13:58:25
央妈大幅放水!11月16日,今日凌晨的三大消息正式传来!

央妈大幅放水!11月16日,今日凌晨的三大消息正式传来!

风口招财猪
2024-11-16 03:09:31
外媒:特朗普胜选后首会外宾,宾主“惺惺相惜”

外媒:特朗普胜选后首会外宾,宾主“惺惺相惜”

参考消息
2024-11-15 19:20:05
除夕重回法定假期,但令人“恶心”的事情,又在全国各地发生了!

除夕重回法定假期,但令人“恶心”的事情,又在全国各地发生了!

晓徙历史
2024-11-15 10:27:23
美国一旦取消中国永久贸易国地位,美国最后的一张牌也打出来了!

美国一旦取消中国永久贸易国地位,美国最后的一张牌也打出来了!

星辰故事屋
2024-11-15 20:52:16
上海东方明珠附近路面“操”字成打卡点,女生吐槽:把低俗当有趣

上海东方明珠附近路面“操”字成打卡点,女生吐槽:把低俗当有趣

映射生活的身影
2024-11-15 15:52:51
变脸堪比翻书!荷兰就光刻机出货表态,日媒:地球仪成功了

变脸堪比翻书!荷兰就光刻机出货表态,日媒:地球仪成功了

粤语音乐喷泉
2024-11-15 21:06:34
懂王是否邀刀郎赴美演唱不知道,只知道云朵恐有五个没有想到

懂王是否邀刀郎赴美演唱不知道,只知道云朵恐有五个没有想到

明话直说
2024-11-15 12:24:34
闹大了!“90后不婚在西安摆摊”炒糊了,电脑被没收,2人被控制

闹大了!“90后不婚在西安摆摊”炒糊了,电脑被没收,2人被控制

魔都姐姐杂谈
2024-11-15 13:13:46
未满月婴儿在月子中心身亡,妈妈:听到她们给孩子换尿布时说“今天你怎么变色了”

未满月婴儿在月子中心身亡,妈妈:听到她们给孩子换尿布时说“今天你怎么变色了”

观威海
2024-11-15 15:12:00
2024-11-16 06:32:49
AI科技评论
AI科技评论
点评学术,服务AI
6668文章数 20614关注度
往期回顾 全部

科技要闻

奇瑞董事长夸余承东:你改名余成功吧

头条要闻

中铁七局:对受伤记者深表歉意 对涉事5人就地免职

头条要闻

中铁七局:对受伤记者深表歉意 对涉事5人就地免职

体育要闻

我们究竟需要一支怎样的国家队?

娱乐要闻

俞灏明迎37岁生日,疑似与王晓晨相恋

财经要闻

同花顺子公司被暂停新增客户3个月

汽车要闻

配易四方+云辇-Z系统 仰望U7于广州车展亮相

态度原创

艺术
房产
旅游
公开课
军事航空

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

房产要闻

最新房价!海口新房,年内新低!但二手房,开始回暖!

旅游要闻

冬季昼夜温差大 多景区宣布停止夜爬活动!

公开课

一块玻璃,如何改变人类世界?

军事要闻

特朗普发表讲话:俄乌战争必须停止

无障碍浏览 进入关怀版