网易首页 > 网易号 > 正文 申请入驻

AI 时代的向量数据库、关系型数据库与 Serverless 技术

0
分享至

TiDB Hackathon 2023 刚刚结束,我仔细地审阅了所有的项目。 在并未强调项目必须使用人工智能(AI)相关技术的情况下,引人注目的项目几乎一致地都使用了 AI 来构建自己的应用。 大规模语言模型(LLM)的问世使得个人开发者能够在短短 5 分钟内为程序赋予推理能力,而这在以往,几乎只有超大型团队才能胜任。 从应用开发者的角度来看,AI 时代也已经到来了。

在这些 AI 应用中,向量数据库的身影是无处不在的。尽管这些项目大多仍在使用关系型数据库,但它们似乎不再发挥一个显而易见的作用。关系型数据库究竟还值不值得获得应用开发者们的关注呢?

为了解答清楚这个问题,我们需要了解一下向量数据库到底跟传统的关系型数据库有什么不同。

什么是向量数据库?

为了搞清楚这个问题,我花了一些时间研究了一下向量数据库。接下来我讲用最简单的语言来解释什么是向量数据库。

这个世界上的大多数事情都是多特征的,比如你描述一个人可以用身高、体重、性格、性别、穿衣风格、兴趣爱好等等多种不同类型的维度。通常如果你愿意的话,你可以无限扩展这个维度或者特征去描述一个物体,维度或者特征越多,对于一个物体或者事件的描述就是越准确的。

现在,假如开始用一个维度来表达 Emoji 表情的话,0 代表快乐,1 代表悲伤。从 0 - 1 的数字大小就可以表达对应表情的悲欢程度,如下 x 轴所示:

但是你会发现,如果只有一个维度来描述情绪 Emoji 的话,这是笼统的,也是不够准确的。例如开心,会有很多种类型的 Emoji 可以表达。那么这个时候我们通常是加入新的维度来更好地描述它。例如我们在这里加入 Y 轴,通过 0 表示黄色,1 表示白色。加入之后表达每个表情在坐标轴上的点变成了 (x, y) 的元组形式。

聪明的你一定发现了,即使我们加入 Y 轴这个新的描述维度,依然还有 Emoji 我们是没办法区分开的。比如

那么怎么办呢?解决这个办法依然很简单,再加一个维度。在坐标系中就是加入 z 轴。我们把新的维度简单设置为是否戴帽子(注意这里每个维度的取值尽可能地简单是为了阐述,不代表真实世界也如此简单)。用 0 表示没戴,1 表示戴了。所以我们现在就得到了一个 (x, y, z) 的三维坐标点来描述一个 Emoji 了。

当然在现实世界中,一个事物的性质不会那么少,所以我们需要通过增加很多个维度来描述它,所以就出现了类似高维数组这样的描述 (0.123, 0.295, 0.358, 0.222 ...)。到这里我们已经非常接近向量数据库中的 “向量” 了,其实向量数据库中存的就是这样的一些数组,用以表示各种各样的数据,包括图片、视频、文字等等。这些事物都是经过我们上述这种转换的方式,把它们变成了一个个高维的数组,然后保存下来。

可能说到这里你还不理解向量数据库有什么作用:为什么我们要把事物变成这样的形式?

简单来讲,这是因为变成向量以后,我们就有办法去量化世界上任意两种事物之间的关联性和相似性了。通过我们刚才的演示,各个维度上越接近的事物,就会在空间中越接近。通过计算两个点之间的距离,就可以判断两者的相似度。

那么如果我们有一个之前从未出现过的一个 Emoji,我们通过上面的方式,可以把这个 Emoji 变成向量(0.01, 1, 0)。

通过计算跟库中的已经存储的向量,就可以找出来最接近的 Emoji 是

次之距离接近的就是

作为佐证,可以看看 PineCone Query Data (https://docs.pinecone.io/docs/query-data#sending-a-query) 获取数据的例子(Score 可以简单被认为是相似度):

Values 中就是找回来的向量(在我们这个例子中可以被认为是对应的 Emoji)。这意味着我们可以通过向量化所有的查询条件,找到最 “接近” 我们要求的东西。如果把 Emoji 替换成文本的话,我们就可以实现 “语义” 搜索。如果把 Emoji 替换成图片或者视频的话,就可以实现图片或者视频相似性推荐。

为什么Al应用常常需要依赖于向量数据库?

通过一句话来解释的话就是:“大模型” 能记住的事情有限。

这非常类似于我们的大脑。在交流的过程中,我们不可能把自己所有的知识都在对话中交给对方,通常我们只能通过有限的上下文来做一定的 “推理”。那么在现在的 AI 应用中,推理能力是由 LLM 提供的,而从你的大脑中把需要表达的最相关的上下文找出来。所以类比来看,向量数据库类似于 LLM 的记忆或者知识库。所以完成一个 AI 相关的功能,如果没有向量数据库的帮助,通常 AI 大模型能完成的功能以及准确度就很有限。

沿着这个思路往下看,除了一些不那么精确的模糊匹配以外,其实在现实生活中也存在很多需要非常精确和确定性的搜索/索引。这个就类似于我们通常会把一些重要信息记录在笔记本里面,需要的时候再通过索引把它精确找回来。

所以向量数据库和关系型数据库最大的不同是对于数据的存储方式和索引查询方式。而正是由于关系型数据库当中存在的精确索引,所以它能在毫秒级别获取到对应的信息。对应于业务系统中需要高速访问的例如账号、商品和订单信息等等,目前依然是需要由它来完成。

下面以这次 Hackathon 获奖的应用 Heuristic AI (https://devpost.com/software/cx-8lh7ps) 作为例子给大家展示一下,在一个真实的项目中,分别是怎么使用这两种类型的数据库的。

日常生活中,当我们使用的电子产品出现故障的时候,通常需要翻阅复杂的使用手册才能获取到相关的解决方案,并且需要花费大量的时间学习。这个项目完成了以下事情:

  1. 把所有产品手册导入到向量数据库里面
  2. 把遇到的问题用自然语言描述,通过语义搜索,在向量数据库中找到最相关的上下文
  3. 把上下文打包成 Prompt 发送给 OpenAI,生成对应的解决方案

大致的技术实现如下:

如果这个软件到此为止了,那基本上也就是一个玩具。通常还需要为系统加入用户认证与管理系统,另外通常在后台还需要加上对业务数据的分析系统,比如多少在线用户使用了产品,使用频率如何等等维度。而这些功能,就需要使用传统的数据库来实现了:

当然作为一个 Hackathon 项目,这个软件其实已经相对比较完整了。但是如果它要进一步产品化,需要考虑以下的方面:

○ 用户数据量暴增,系统的可扩展性和稳定性

○ 多数据中心和灾难情况下的数据备份和恢复

这些都不酷,甚至有些痛苦,但是这依然是我们需要慎重且认真对待的领域。好在从这次 Hackathon 中,可以肉眼观察到的另一个趋势:Serverless ,在帮助开发者们不断减轻产品化一个应用的技术难度。

基础软件 Serverless 化带来的效率提升

可以观察到的:独立开发者在项目开发中发挥的作用日益突出。独立开发者在项目开发中发挥的作用日益突出。相较于过去,不再需要庞大的 3-4 人团队合作,现在的优秀项目往往由 1-2 名开发者,甚至是个别人单独完成。

这一趋势的背后,Serverless 化的浪潮充当了重要的推动力。借助 Serverless,开发者能够专注于业务逻辑,而不必纠结于底层基础设施的细节。这次没有再看到有开发者会利用本地部署实现自己的应用了,前端和业务代码部署使用 Vercel,后端组件,比如 Vector 数据库用 Qrdrant (https://qdrant.tech/),或者 Pinecone (https://www.pinecone.io/),关系型数据库使用 TiDB Cloud Serverless (https://bit.ly/3PsYJle),用上这一套,基本上一个工程师就能完成 Demo 级别的应用了。

这个时代下也并非只有 AI 领域一枝独秀,其他的传统技术,其实也在为开发者们提供越来越方便的使用体验,也在随着浪潮不断递进迭代。

只要关注回到开发者本身,大家都有光明的未来。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
刘亦菲低调官宣!早期约会视频曝光,粉丝坐不住了...

刘亦菲低调官宣!早期约会视频曝光,粉丝坐不住了...

莫问先生
2024-12-27 12:03:00
外媒:中国正在用行动证明,美国的科技战,中国将会是最大赢家!

外媒:中国正在用行动证明,美国的科技战,中国将会是最大赢家!

橘色数码
2024-12-28 11:25:32
这大概是章泽天最真实的照片了,抛弃一切身份,此时她只是位母亲

这大概是章泽天最真实的照片了,抛弃一切身份,此时她只是位母亲

人情皆文史
2024-10-13 00:04:08
1990年成龙去北京拍戏,被房产中介忽悠,花了400万购买8套四合院

1990年成龙去北京拍戏,被房产中介忽悠,花了400万购买8套四合院

玲子日记
2024-12-25 15:28:32
张学良迷恋的赵一荻有多美?1955年在台湾的留影,43岁她风韵犹存

张学良迷恋的赵一荻有多美?1955年在台湾的留影,43岁她风韵犹存

阿器谈史
2024-12-25 15:00:54
樊振东心酸过往曝光,几年没打联赛,赚钱养八一小将,陈梦伸援手

樊振东心酸过往曝光,几年没打联赛,赚钱养八一小将,陈梦伸援手

东球弟
2024-12-28 11:23:37
中方反击后,西方一查发现,北约军事能力,被中国的7张牌锁死?

中方反击后,西方一查发现,北约军事能力,被中国的7张牌锁死?

听风细说
2024-12-28 18:42:15
续航614公里、百公里能耗仅9.76度,2025款特斯拉Model 3真香升级

续航614公里、百公里能耗仅9.76度,2025款特斯拉Model 3真香升级

沙雕小琳琳
2024-12-28 10:01:33
解除禁足?郭田雨消失2个月,官宣火线复出,国际足联或帮忙

解除禁足?郭田雨消失2个月,官宣火线复出,国际足联或帮忙

小金体坛大视野
2024-12-28 11:51:27
天冷了,少吃猪肉多吃它,比鱼肉便宜,比牛羊肉鲜美,高钙高蛋白

天冷了,少吃猪肉多吃它,比鱼肉便宜,比牛羊肉鲜美,高钙高蛋白

花小厨
2024-12-26 17:15:12
比尔:弩机和纳吉之间可能发展为私人恩怨了 没人会来球场打WWE

比尔:弩机和纳吉之间可能发展为私人恩怨了 没人会来球场打WWE

直播吧
2024-12-28 14:30:07
俄罗斯经济,现在到底有多难?

俄罗斯经济,现在到底有多难?

小明哗扑
2024-12-28 15:31:23
欧洲电动汽车教父:中国的混动汽车是一条通往地狱之路!

欧洲电动汽车教父:中国的混动汽车是一条通往地狱之路!

沙雕小琳琳
2024-12-28 01:19:51
山西5名干部违反中央八项规定被通报!

山西5名干部违反中央八项规定被通报!

太原全接触
2024-12-28 14:12:35
朝鲜司机:朝鲜汽车最好,日本车也比不上

朝鲜司机:朝鲜汽车最好,日本车也比不上

沙雕小琳琳
2024-12-28 03:14:17
初中生被骗喝强碱水后食道烧伤,施害者家长希望对方别在网上维权

初中生被骗喝强碱水后食道烧伤,施害者家长希望对方别在网上维权

映射生活的身影
2024-12-28 11:44:10
攻防一体!JJJ21中11爆砍33分6板3助5断4帽 正负值+32冠绝全场

攻防一体!JJJ21中11爆砍33分6板3助5断4帽 正负值+32冠绝全场

直播吧
2024-12-28 11:49:31
央视曝光新型洗钱套路:平时随意充个话费,或许就成了洗钱的帮凶

央视曝光新型洗钱套路:平时随意充个话费,或许就成了洗钱的帮凶

蜉蝣说
2024-12-27 11:25:39
新加坡石油大亨林恩强宣布破产

新加坡石油大亨林恩强宣布破产

界面新闻
2024-12-28 15:04:50
上个月,我去了趟拉萨回来后,我只想说,能不去就尽量不去

上个月,我去了趟拉萨回来后,我只想说,能不去就尽量不去

猫小狸同学
2024-11-28 13:45:03
2024-12-28 20:07:00
PingCAP
PingCAP
分布式数据库TiDB背后团队
523文章数 624关注度
往期回顾 全部

科技要闻

特朗普要求,暂停执行TikTok强制出售令

头条要闻

加拿大商人:中俄都到家门口了 跟美国"合体"吧

头条要闻

加拿大商人:中俄都到家门口了 跟美国"合体"吧

体育要闻

63岁传奇羽毛球解说员,还不想退休

娱乐要闻

突发!赵薇官宣离婚,与黄有龙已分开多年

财经要闻

谁是中国第一工业?谁在支撑就业?

汽车要闻

长安启源C798内饰官图发布 配备副驾零重力座椅

态度原创

时尚
教育
健康
公开课
军事航空

“半身裙”才是冬天的百搭单品,这些搭配好高级,优雅大方还显瘦

教育要闻

背了它,你的英语语法就稳了!

属于北京的一处精神“乌托邦”宝地

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

中国下水全球首艘弹射型两栖攻击舰

无障碍浏览 进入关怀版