网易首页 > 网易号 > 正文 申请入驻

【数据湖仓】数据湖和仓库:范式简介

0
分享至

是时候将数据分析迁移到云端了——您选择数据仓库还是数据湖解决方案?了解这两种方法的优缺点。

数据分析平台正在转向云环境,例如亚马逊网络服务、微软 Azure 和谷歌云。
云环境提供了多种好处,例如可扩展性、可用性和可靠性。此外,云提供商有大量的原生组件可供构建。还有多种第三方工具可供选择,其中一些是专门为云设计的,可通过云市场获得。

工具自然倾向于强调自己在分析集成中的作用。当您尝试选择最佳工具集时,这通常会令人困惑。在这篇文章中,我们将详细介绍许多工具的优缺点。

这是一个由三部分组成的系列文章的第一篇,我们评估了基于数据仓库和数据湖的解决方案的基本方法或范式的差异。

博客系列

  • 数据湖和仓库第 1 部分:范式简介

  • 数据湖和仓库第 2 部分:Databricks 和雪花

  • 数据湖和仓库第 3 部分:Azure Synapse 观点

两种范式:数据湖与数据仓库


基于一些主要组件的选择,云分析解决方案可以分为两类:数据湖和数据仓库。简而言之,数据仓库解决方案传统上是集中式的,而数据湖解决方案则分散到核心。这两种方法都有其优势,并且通常用于略有不同的目的。如今,产品具有这两个类别的典型特征是很常见的。即便如此,产品仍然展示其原始类别及其观点。

让我们将这种基本类别方法称为范式。理解范式的基本哲学有助于理解全局。

在这篇文章中,我们深入挖掘了范式的特征和差异。我们首先将分析平台划分为典型的组件阶段。在此之后,我们讨论从两种范式的角度选择组件的方法。

在本系列的下一篇文章中,我们将讨论如何在一些流行的产品中看到范式。

数据分析平台通常根据它们所涵盖的过程部分分为多个阶段。典型的批量数据流水线平台如上图所示。但是,文章分析也适用于实时平台。这些工具可以从处理(绿色)或存储(蓝色)的角度进行分类。下面的工具行对应于它们在平台不同阶段的可用性。

例如,典型的数据湖解决方案由单独的处理和存储工具组成。在数据仓库的情况下,一个单一的解决方案通常同时兼顾处理和存储功能。让我们更清楚一点。

从处理(绿色)的角度来看,数据平台阶段是:

  • 摄取 (Ingest )- 使用 API 接口或 ELT/ETL 工具从源系统读取数据

  • 准备(Prepare)——数据将进行初步清理和检查

  • 转换和丰富(Transform & Enrich)——根据用例丰富和修改数据

  • 服务 (Serve)- 准备好的数据提供给选择的工具以供实际使用

  • 可视化和报告(Visualize & Report )——信息以可视化或报告的形式提供给最终用户


此外,大数据世界的当前趋势是根据应用的处理级别将数据存储在多个层中。数据存储层(蓝色)通常至少包括:

  • 原始(也称为青铜)——未处理的源数据,按原样存储

  • 精炼(银)——经过初步清理和标准化的质量验证数据。数据通常尚未修剪。

  • 已发布(金)——经过处理、组合和丰富的数据。通常,数据也已针对特定用例进行聚合和修剪。

数据存储层的确切覆盖范围因源而异,但此处的细节无关紧要。但是,重要的是要注意,尤其是在银层和金层中,数据可以存储不止一次。例如,黄金层通常为不同的使用场景提供多个版本的数据。

比较数据分析平台


传统上,数据分析平台是用于公司报告目的的解决方案。对于这个用例,基于关系数据库的数据仓库是事实上的标准。但是,数据仓库不太适合处理新类型的数据,通常称为大数据。问题是由于数据量、实时要求和类型多样性造成的,其中包括非结构化和半结构化数据。为了补充工具集,在过去十年左右开发了数据湖类型的解决方案。

根据 Wikipedia 中的一个非常广泛的定义,数据湖是一种可以以原始形式存储数据的解决方案。一般来说,这意味着任何文件格式的潜在存储容量都是无限的。在实践中,该术语还涵盖处理存储数据的工具。

市场上倾向于将产品展示为“整体数据湖解决方案”。通常他们是对的:理论上,即使是具有大硬盘驱动器的虚拟机也能让有能力的编码人员创建数据湖解决方案。自然,这种极简主义的定义不是很有用。

相反,考虑范式的差异更有意义:数据仓库的基本原则和基于数据湖的解决方案。

数据仓库:以有组织的结构提供的已清理数据


对于数据仓库范式,基本方法是提供一个集中式产品,使数据能够存储在有组织的层次结构中,通常以数据库表的形式。该解决方案包括表之间的外键引用、细粒度数据加密和详细的用户访问管理等内容。对数据的访问主要通过特定的数据仓库产品处理,通常使用 SQL 语言。

数据仓库范式的优点是能够定义向用户提供的数据和格式。通常,数据以经过处理和干净的格式提供。例如,这样我们就可以保证数据的有效性。此外,源系统和数据的变化至少在某种程度上对用户是隐藏的。

另一方面,作为限制,我们依赖单一的产品供应商。例如,只能以产品支持的方式从数据仓库解决方案中检索数据。此外,我们需要以一种或另一种方式为数据的检索付费。数据仓库解决方案也可能成为数据处理的资源瓶颈。最近,在解决后一个限制方面取得了重大进展。

数据湖:去中心化带来的自由


数据湖范式的核心原则是责任分散。借助大量工具,任何人都可以在访问管理的范围内使用任何数据层中的数据:青铜、白银和黄金。组织数据和表的关系是可以的,但是通常不强制使用,我们可以很容易地绕过它们。

数据湖解决方案的一个主要优势是计算和处理工具的去中心化。数据科学家可以在自己的机器上使用青铜层数据进行 Python 图像分析,数据工程师可以使用 Apache Spark 修改银层数据,分析师可以通过报告工具利用黄金层数据。SQL 语言通常作为一种可能性提供。此外,计算是分散的,几乎没有瓶颈。

数据湖范式解决方案的一个主要弱点是缺乏数据组织,包括集中的元数据存储库。如果由于纠错或源系统修改而导致处理的数据更改,则可能非常难以跟踪。此外,不能始终保证数据的有效性或结构。集中式数据湖元数据管理工具越来越多,但使用它们取决于开发过程。技术很少强制这样做。

结论:数据湖和数据仓库


在这篇文章中,我们讨论了数据仓库和基于数据湖的解决方案的基本方法或范式的差异。基于数据仓库的解决方案通常是集中式的,而数据湖解决方案则分散到核心。然而,这两个类别的工具都在发展,并且划分变得越来越不清晰。然而,理解范式方法有助于理解全局。

原则上,您可以纯粹在数据湖或基于数据仓库的解决方案上构建云数据分析平台。

我见过大量基于数据湖工具的功能齐全的平台。在这些情况下,可以使用特定于用例的数据库数据集市来提供信息,而根本不需要数据仓库。

另一方面,也有成功的解决方案,其中整个平台都建立在数据仓库产品之上。数据直接读入数据仓库,在那里进行处理和服务。

但是,由于此处解释的差异,基于其中一种范例的解决方案不一定在所有情况下都是最佳的。他们的优势和基本理念是不同的。在处理青铜级和白银级数据时,在早期阶段利用基于数据湖的方法可能是有意义的。然后可以将数据存储在数据仓库中,以进一步组织成白银和黄金数据。通过这种方式,所有数据既可以用于快速实验的原始格式,也可以用于报告的结构格式。

这样,我们可以利用这两种方法的优势。

本文 https://jiagoushi.pro/data-lakes-and-warehouses-intro-paradigms 讨论:知识星球【首席架构师圈】或者加微信小号【cea_csa_cto】或者加QQ群【792862318】 公众号

【jiagoushipro】
【超级架构师】
精彩图文详解架构方法论,架构实践,技术原理,技术趋势。
我们在等你,赶快扫描关注吧。

【cea_csa_cto】
50000人社区,讨论:企业架构,云计算,大数据,数据科学,物联网,人工智能,安全,全栈开发,DevOps,数字化.

QQ群

【792862318】深度交流企业架构,业务架构,应用架构,数据架构,技术架构,集成架构,安全架构。以及大数据,云计算,物联网,人工智能等各种新兴技术。
加QQ群,有珍贵的报告和干货资料分享。

视频号 【超级架构师】
1分钟快速了解架构相关的基本概念,模型,方法,经验。
每天1分钟,架构心中熟。

知识星球 向大咖提问,近距离接触,或者获得私密资料分享。

喜马拉雅 路上或者车上了解最新黑科技资讯,架构心得。 知识星球 认识更多朋友,职场和技术闲聊。 微博 【智能时刻】 哔哩哔哩 【超级架构师】

抖音 【cea_cio】超级架构师

快手 【cea_cio_cto】超级架构师

小红书 【cea_csa_cto】超级架构师

谢谢大家关注,转发,点赞和点在看。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
某局大崩溃:管理人员都发不出工资了!

某局大崩溃:管理人员都发不出工资了!

黯泉
2024-11-23 22:57:36
国务院国资委副主任王宏志,调任国家能源局党组书记

国务院国资委副主任王宏志,调任国家能源局党组书记

观察者网
2024-11-29 19:24:52
欠债近2万亿的恒大处置工作新进展,部分在职及离职高管开始退钱

欠债近2万亿的恒大处置工作新进展,部分在职及离职高管开始退钱

校长侃财
2024-11-29 09:27:46
“胸版王心凌”晒身材,被批太暴露:这是不打码能看的?

“胸版王心凌”晒身材,被批太暴露:这是不打码能看的?

书画艺术收藏
2024-11-25 20:00:02
当代嫪毐:养8名情妇,睡遍女狱警,警花也不放过,狱长是他小弟

当代嫪毐:养8名情妇,睡遍女狱警,警花也不放过,狱长是他小弟

麦大人
2023-12-31 18:00:16
朱珠随父逛街被偶遇,65岁霸总爸爸满头银丝难掩帅气儒雅

朱珠随父逛街被偶遇,65岁霸总爸爸满头银丝难掩帅气儒雅

时髦范
2024-11-30 00:09:54
百万网红谢欣桐被曝出轨,聊天记录不堪入目,温柔乖乖女人设崩塌

百万网红谢欣桐被曝出轨,聊天记录不堪入目,温柔乖乖女人设崩塌

南城无双
2024-11-27 11:16:56
叙利亚自由军攻势迅猛 巴沙尔急往莫斯科求救

叙利亚自由军攻势迅猛 巴沙尔急往莫斯科求救

桑未落
2024-11-29 16:13:29
卡里乌斯:萨拉赫上次续约已打破球队薪资结构,导致马内无法续约

卡里乌斯:萨拉赫上次续约已打破球队薪资结构,导致马内无法续约

直播吧
2024-11-29 13:14:11
比亚迪,突发!

比亚迪,突发!

中国基金报
2024-11-27 14:06:30
私企老板的圈子,其实就是J局

私企老板的圈子,其实就是J局

老付杂谈屋
2024-10-27 12:12:29
美国再以“涉嫌强迫劳动”禁止中国食品和金属进口

美国再以“涉嫌强迫劳动”禁止中国食品和金属进口

掌链
2024-11-28 22:04:17
走路就能降血糖?国外研究:降血糖有2个“最佳方法”,不是走路

走路就能降血糖?国外研究:降血糖有2个“最佳方法”,不是走路

老鹈爱历史
2024-11-29 18:02:41
油价大跌超800元/吨后,再跌145元/吨,12月4日油价即将再调整

油价大跌超800元/吨后,再跌145元/吨,12月4日油价即将再调整

油价早知道
2024-11-30 01:30:38
比亚迪回应要求供应商降价10%:非强制要求,可协商推进

比亚迪回应要求供应商降价10%:非强制要求,可协商推进

南方都市报
2024-11-27 17:10:06
太猛了!于东来炮轰汽车企业家:一个比一个傻,像奴隶一样!

太猛了!于东来炮轰汽车企业家:一个比一个傻,像奴隶一样!

老蒋谈策划
2024-11-29 10:16:40
48小时内,台军动了,美军动了,台湾政客:求求蔡英文千万别出国

48小时内,台军动了,美军动了,台湾政客:求求蔡英文千万别出国

千里持剑
2024-11-29 14:41:21
杨议再爆猛料“骑虎难下”:证据越来越多,恐成第二个刘嘉玲

杨议再爆猛料“骑虎难下”:证据越来越多,恐成第二个刘嘉玲

阿凫爱吐槽
2024-11-29 08:59:17
太讽刺了!杨子五个微信几千个好友,一个也没请来,黄圣依请了格格

太讽刺了!杨子五个微信几千个好友,一个也没请来,黄圣依请了格格

娱乐的小灶
2024-11-29 18:38:43
蒋介石身份证上的三个字, 感动了无数国人, 就连毛主席也高度赞赏

蒋介石身份证上的三个字, 感动了无数国人, 就连毛主席也高度赞赏

薇薇评论
2024-11-30 00:05:17
2024-11-30 07:40:49
架构师研究会
架构师研究会
全网【架构师研究会】大数据,云,物联网,智能计算
1240文章数 4331关注度
往期回顾 全部

科技要闻

"AGI不是大杀器,是普通人每天在用的产品"

头条要闻

菲副总统威胁"刺杀总统" 马科斯作出"淡化冲突"表态

头条要闻

菲副总统威胁"刺杀总统" 马科斯作出"淡化冲突"表态

体育要闻

穆雷与德约科维奇能凑成王炸组合吗?

娱乐要闻

叶珂被曝独自去产检,他俩真分了吗

财经要闻

专家建议将农民养老金提升至每月500元

汽车要闻

问界M7今年累计交付量已突破18万辆

态度原创

房产
游戏
手机
本地
公开课

房产要闻

大量甩地!114亿,4790亩!海南土地市场全面爆发!

钢岚:新版本三大专武分析!2.0版本难道究极凯皇即将降世?

手机要闻

周度手机市场报告出炉:华为稳固领先,iPhone来到第四!

本地新闻

云游中国|来伦布夏果感受充满Passion的人生

公开课

一块玻璃,如何改变人类世界?

无障碍浏览 进入关怀版