拥抱数据的力量，转动生成式AI的飞轮|向量|算法|数据源|大模型

拥抱数据的力量，转动生成式AI的飞轮

2024-05-08 22:00:12　来源: 至顶头条

北京举报

分享至

作者：王聪彬

算力、算法、数据被称为是人工智能的三要素，在大模型时代，前两者的关注度已经远远超过后者，但是真正保证大模型输出结果的优劣，看的就是训练时的数据质量。

“每个公司都能访问相同的基础模型，但那些能够利用自己的数据构建具有真正商业价值的生成式人工智能应用的公司，将会是成功的公司。”亚马逊云科技大中华区产品部总经理陈晓建在与客户沟通过程中一个深刻体会就是，把大模型的价值真正发挥出来的先决条件是数据。

像店匠科技就在使用Amazon S3 存储用于训练的海量营销素材，灵奥科技则是利用模式实时学习业务数据，正是基于优质数据的基础，他们一方面让大模型发挥了更大的价值，一方面也产生了差异化的竞争能力。

亚马逊云科技在底层服务企业用好数据上也下了很多功夫，构建了三大核心能力，包括模型微调和预训练所需的数据处理能力、利用专有数据与模型快速结合以产生独特价值的能力、有效处理新数据以助推生成式AI应用持续快速发展的能力，让企业可以充分发挥数据价值的同时，加快生成式AI落地。

模型微调和预训练所需的数据处理能力

从原始数据集到训练出基础模型需要解决三个主要问题，第一，找到合适的存储来承载海量数据；第二，清洗加工原始数据为高质量数据集；第三，对整个组织内数据的发现编目治理。

现在微调、预训练基础模型需要海量的多模态数据，所以体量也达到TB甚至PB。另外就是要避免数据传输瓶颈造成的计算资源浪费。

而提到数据存储能力，就不能不提Amazon S3，其在安全和功能上都满足了微调和预训练基础模型对数据存储的要求。目前Amazon S3拥有超过200万亿个对象，平均每秒超过1亿个请求，亚马逊云科技上超过20万个数据湖都使用了Amazon S3。“Amazon S3几乎是云上扩展性的代名词，它支持广泛的数据协议。”陈晓建谈到，Amazon S3能轻松应对各种数据类型，还支持智能分层以降低训练成本。

除了Amazon S3，亚马逊云科技还专门构建了文件存储服务Amazon FSx for Lustre提供亚毫秒延迟和数百万IOPS的吞吐性能，进一步加快模型优化的速度。

要用做训练的数据还需要进行清洗，Amazon EMR Serverless和Amazon Glue可以帮助企业轻松完成数据清理、去重、乃至分词的操作。Amazon EMR serverless采用无服务器架构，它易用使用，能够预置、配置和动态扩展应用程序在每个阶段所需的计算和内存资源，性能上拥有比开源快2倍以上的速度，且用户只需为使用的时间和资源付费，同时提供实时监控和跨AZ的高可用设计。Amazon Glue是简单、可扩展的无服务器数据集成服务，它可以更快地集成数据，可以连接不同数据源并简化相关的代码工作，提供基于Spark、Python和Ray这种广泛使用的框架，同时通过Amazon Glue Studio提供可视化创作体验，通过拖拉拽快速集成源和目标。

最后数据还需要被不同的角色来访问，企业就需要对整个数据生命周期实现治理。在数据治理过程中会遇到难以找到分布在各帐户和地区的数据，数据访问的控制很难管理且容易出错，数据分析师访问权限不足且缺乏相对应的工具技能，不用户没有简单的数据协同环境，数据治理隐藏在各种工具中等问题。

Amazon DataZone让企业能够跨组织边界大规模地发现、共享和管理数据，不但能够为多源多模态数据进行有效编目和治理，而且还提供简单易用的统一数据管理平台和工具，从而为用户解锁所有数据的潜能。

利用专有数据与模型快速结合以产生独特价值的能力

数据在准备好后，企业需要构建一个专属的大模型，其可以更加具备垂直行业的专业知识、实效性和减少幻觉。

检索增强生成（Retrieval-Augmented Generation，RAG）技术被普遍认为是实现数据与模型结合的主要途径之一，检索增强生成技术的关键是vector embeddings向量嵌入，包括几个阶段：获取特定领域数据源，通过分词将其分解为token元素（单词、短语、段落或整个文档），通过LLM将这些token导出数值向量——即每个token的数字数组，这些向量放置在多维向量空间中并彼此靠近，通过这一系列操作将元素数据中内容关联问题简化为token元素间的距离计算问题。

陈晓建认为，RAG场景的核心组件就是向量存储，现代应用程序需精准理解用户需求并正确关联产品或内容，这一需求广泛存在于搜索、评论、购物车及产品推荐等交互框架中，这些框架又依赖于功能各异的数据库，这使得数据库成为实施RAG技术的理想平台。

亚马逊云科技已经在八种数据存储中添加了向量搜索功能，让客户在构建生成式 AI 应用程序时有更大的灵活性。

知识图谱擅长结构化知识，并能够确保数据准确，劣势在于不能理解自然语言，只能做严格推理。基础模型和知识图谱正好相反，能理解自然语言但缺乏专业知识。两者结合可以获得更精确专业的信息以减少幻觉，也可以对不准确的回答进行溯源和纠偏。

亚马逊云科技看到已经有一些企业在开始结合知识图谱和基础模型，专门构建了图数据库Amazon Neptune，并为其推出了分析数据库引擎Amazon Neptune Analytics，能够提升80倍的图数据分析速度，使用内置算法可在几秒钟分析数百亿个连接，通过将图和向量数据一直存储能够实现更快的向量搜索。

有效处理新数据以助推生成式AI应用持续快速发展的能力

最后企业要通过云的能力有效增强数据处理能力，让生成式AI应用走的更快。陈晓建表示，终端用户绝对大部分问题是类似甚至重复的，频繁调用基础模型是一个耗时和增加成本的存在，企业可以通过数据的结构来进行缓解。

通过将之前问答生成的新数据存入缓存，从而在面对类似问题时，可以不调用模型，而直接通过缓存给出回答，这不但能够减少模型调用，还可以节约成本。

Amazon Memory DB内存数据库本身是一个高速的缓存，同时也支持向量搜索。它能够存储数百万个向量，只需要几毫秒的响应时间，能够以99%的召回率实现每秒百万次的查询性能，非常适配欺诈检测和实时聊天机器人等实时场景。

亚马逊云科技认为，企业应结合无服务器的速度和生成式AI的力量快速占领市场，无服务器的速度加上生成式AI的力量，能够让企业快速交付以创新为重点的更智能化应用程序和功能。

无服务器可以减少繁重复杂运维，让企业集中精力于AI代码创新，闲时收缩资源以实现高性价比，还能够在需要时快速扩展消除性能瓶颈。当然无服务器化背后有非常复杂的业务逻辑，比如安全隔离、故障处理、负载均衡等，这些工作都考验着技术能力和团队经验，亚马逊云科技积累多年的丰富经验可以为客户提供令人信任的服务。Amazon OpenSearch Serverless用于向量搜索，可省去企业配置运维OpenSearch快速占领市场。

所以，总而言之，言而总之。生成式AI不仅需要一个强大的基础模型，同时还需要强大的数据能力，而这三方面工作也能够帮助企业快速应用上生成式AI。在陈晓建看来，生成式AI并不是一个简单的工作，其是一个飞轮的结构，通过有效的云服务打造一个坚实的数据底座，就可以高效、安全的创建出一系列具有独特价值的生成式AI应用，在满足需求的同时产生更多数据，而这些数据又会进一步提升模型的准确度，让这个轮子不断的滚动起来。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.