揭秘下一代 Data for AI 技术架构，六位专家深度剖析未来趋势

揭秘下一代 Data for AI 技术架构，六位专家深度剖析未来趋势 | QCon

2024-09-26 13:42:33　来源: InfoQ

北京举报

分享至

随着生成式 AI 和大模型技术的飞速发展，数据管理和基础设施领域迎来了前所未有的挑战与机遇。海量数据的处理需求、跨云环境的数据治理，以及 AI 平台的高效性和扩展性，已经成为企业在 AI 时代需要解决的核心问题。

为了应对这些技术趋势和挑战，10 月 18 日 -19 日即将QCon 上海站，我们特别策划了《下一代 Data for AI 技术架构》专题，邀请来自 DatastratoFounder & CEO堵俊平为专题进行内容把控，他在数据与 AI 赛道耕耘十数年，曾任 LF AI & DATA 基金会董事主席，500 强企业开源战略与生态负责人，前腾讯开源联盟主席及数据平台总监。

本专题论坛，我们邀请了来自字节跳动、Datastrato、Zilliz、JuiceFS、PayPal、OPPO等顶尖技术专家的分享。他们将从大模型场景的数据湖优化、AGI 时代的数据目录设计、向量检索技术提升、AI 存储系统架构优化、企业级 AI 平台建设等角度，带来关于数据与 AI 深度融合的前沿探索与实战经验。以下为详细介绍～

精彩分享一：

随着大数据和 AI 技术的蓬勃发展，数据湖方案在应对海量数据分析场景上已相对成熟。然而，伴随大模型的崛起，云上数据湖面临了全新的挑战。

在本次 QCon 分享中，字节跳动技术专家李经纶将带来《云上数据湖在 LLM 场景的挑战与解决之道》的精彩分享。作为 Apache Hadoop Committer 和火山引擎 EMR 技术专家，李经纶在大规模 Hadoop 集群治理及存算架构优化方面有深厚积累。

李经纶将深入解析 LLM 场景对传统数据湖架构的颠覆性要求，如 Catalog 割裂、IO 带宽需求与延迟问题、对象存储的局限性等。他将分享火山引擎如何通过统一 Catalog、加速层优化以及 Iceberg 通用数据湖等实践，有效应对这些挑战，并推动大数据与 AI 生态的融合。

通过此次分享，您将深刻了解如何在大模型场景下构建高效、扩展性强的数据湖架构，助力企业数据基础设施的转型升级。

精彩分享二

在 AGI 时代，数据管理面临着前所未有的挑战。生成式 AI 对于数据的覆盖范围和准确性提出了更高要求，特别是在大规模语言模型（LLM）的训练与推理中，如何有效管理结构化与非结构化数据成为关键难题。

在此次 QCon 演讲中，我们将迎来两位重量级嘉宾的联合分享：Datastrato 联合创始人 & CTO邵赛赛和小米数据开发平台负责人周康。他们将围绕 “AGI 时代统一数据目录的设计与实践” 这一主题，深入探讨数据管理的前沿挑战及解决方案。邵赛赛作为 Apache Gravitino 项目的创始人，将分享如何通过统一的数据模型来应对跨域、跨云的数据管理需求；周康则将结合小米的实际业务场景，展示如何通过 Gravitino 构建面向 GenAI 的统一数据平台，助力企业高效管理海量的结构化与非结构化数据。

此次分享将为听众带来 AGI 时代数据目录的创新实践，包括如何通过 Apache Gravitino 解决 LLM 应用中的“数据幻觉”问题，构建企业级 RAG 应用，以及统一权限治理模型如何简化数据管理的复杂性。通过他们的分享，您将了解如何在企业中落地下一代数据平台，提升 AI 应用的数据治理效率。

精彩分享三

向量检索作为 AI 时代的重要技术，在大规模应用场景中扮演了关键角色。Zilliz Senior Product Manager张粲宇将为我们带来《提升 RAG 准确率至 90%，Milvus 向量检索实践之道》的深度分享。作为 Milvus 产品负责人，张粲宇在数据库内核与 AI 领域积累了丰富经验，曾参与 SAP HANA 和 TiDB 等核心产品的研发。

在本次分享中，张粲宇将重点探讨 RAG（检索增强生成）场景下向量检索的技术挑战，包括检索质量提升、成本优化以及数据安全的管理。他将介绍 Milvus 如何通过元数据过滤、混合检索和冷热分层存储等技术，成功将 RAG 检索准确率提升至 90% 以上。此外，他还将展示 Milvus Ask AI 的企业级 RAG 实践，为观众提供前沿的技术见解。

通过此次分享，您将掌握向量数据库的最新技术发展，深入了解如何通过混合检索优化多模态场景下的搜索效率，推动企业 AI 应用的创新发展。

精彩分享四

在 AI 和数据驱动的时代，存储系统是支撑 AI 模型训练与应用的关键基础设施。面对 AI 业务快速发展的需求，传统存储系统的选型和架构设计往往无法满足高效处理海量数据的挑战。为了解决这些问题，JuiceFS 合伙人苏锐将带来《拥抱 AI，我们需要什么样的存储系统？》的精彩演讲。

苏锐自 2017 年作为 1 号成员参与 JuiceFS 创立以来，一直负责产品的市场拓展与开源社区建设。在他的带领下，JuiceFS 已成为一款为大规模数据高性能负载设计的分布式文件系统，广泛应用于 AI 和机器学习领域，包括自动驾驶、量化金融以及热门的生成式 AI 和大语言模型等场景。

在本次分享中，苏锐将结合 JuiceFS 在为数十家 AI 企业提供服务的实践经验，深入探讨 AI 业务对存储系统的特殊要求，包括性能、弹性、扩展性等关键因素。他还将分析集中式架构与分布式架构的差异，如何在成本与性能之间取得平衡，并分享一个生成式 AI 领域的实际案例。

通过这场演讲，观众将收获关于 AI 业务中的存储系统选型策略，了解如何在海量数据场景下优化存储架构，提升业务效率与稳定性。

精彩分享五

随着生成式 AI 和大模型的快速崛起，企业对 AI 平台的需求也在不断升级。PayPal AI 平台资深研发工程师刘迟将带来《从 MLOps 到 LLMOps，支持数千模型与数百亿推理请求的 AI for Data 平台探索》的演讲，分享 PayPal 如何通过统一的 AI for Data 平台支持企业级 AI 需求。

作为 PayPal AI 平台的大模型方向负责人，刘迟长期专注于人工智能和大数据技术的研究与实践，拥有丰富的行业经验。在本次演讲中，他将深入讲解 PayPal 如何构建一个覆盖多个业务部门的企业级 AI 平台，通过高效协作和数据治理，实现对数千模型和数百亿推理请求的支持。

刘迟还将重点介绍 LLMOps 在生成式 AI 应用中的实际落地，如何构建支持 LLM 推理优化的基础架构，以及在多云和混合云环境中实现平台扩展的最佳实践。通过案例分享，观众将了解到 PayPal 在 GenAI 技术应用中的经验，如何快速扩展企业级 AI 平台，并应对复杂业务场景的挑战。

这场分享将为与会者提供关于企业级 AI 平台构建的宝贵经验，帮助他们了解如何将生成式 AI 技术应用于自己的业务中，提升 AI 平台的扩展性与性能。

精彩分享六

随着 AI 技术的快速发展，数据基础设施成为支撑大规模 AI 模型训练和应用的核心要素。特别是在分布式存储领域，如何应对数据量的爆炸式增长并提供高效的存储解决方案，是当前的技术挑战之一。

在本次 QCon 大会上，我们将迎来 OPPO 分布式存储专家常亮的分享。常亮目前是 OPPO 云计算部文件存储的负责人，拥有超过十年的存储研发经验，曾在华为、腾讯等顶尖科技公司担任要职。同时，他还是开源分布式文件系统 CubeFS 的 TSC 成员，主导了 CubeFS 成功进入 CNCF 的孵化项目，并负责其毕业的相关工作。

常亮的演讲主题是《为大规模 AI 构建高效数据基础设施的技术挑战与实践》。他将详细介绍 CubeFS 如何通过多协议接入、智能数据分层调度等技术，支持大规模 AI 训练的数据需求，提升数据管理的效率和成本效益。此外，他还将分享 CubeFS 如何通过分布式缓存和 RDMA 加速技术，解决云上访问私有云存储的延时问题，并构建全链路的 AI 加速解决方案。

通过这场分享，你将了解到 AI 数据存储的特点和面临的技术挑战，以及如何通过创新的分布式存储解决方案，支撑大规模 AI 应用的高效运行，推动 AI 数据基础设施的技术演进。

InfoQ 将于 10 月 18-19 日在上海举办 QCon 全球软件开发大会，覆盖前后端 / 算法工程师、技术管理者、创业者、投资人等泛开发者群体，内容涵盖当下热点（AI Agent、AI Infra、RAG 等）和传统经典（架构、稳定性、云原生等），侧重实操性和可借鉴性。现在大会已开始正式报名，可以享受 9 折优惠，单张门票立省 480 元（原价 4800 元），详情可联系票务经理 17310043226 咨询。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.