网易首页 > 网易号 > 正文 申请入驻

如何使用Scrum敏捷方法,快速搭建数据集市?

0
分享至

编辑导语:数据集市应该如何建设才能提升可用性,有更强的市场适应性?也许,你可以结合产品敏捷方法论进行数据集市的搭建。本篇文章里,作者结合案例,就如何使用Scrum敏捷方法搭建数据集市一事做了分析,一起来看一下。

数据仓库自最早1988年被提出来,发展至今也有几十年了。从数仓1.0到数仓4.0,从关系型数据库到大数据仓库。现如今,数据集市和数据湖以及湖仓一体化是业界研发和发展的重要方向。

数仓的建设有一套业界成熟的方法论,但数据集市如何建设各家企业众说纷纭。作为数据产品经理,对数据仓库和数据集市等技术领域也并不会陌生,企业在搭建数据集市过程中,往往会因为流程和项目管理的问题导致数据集市可用度不高以及业务价值较低。

那如何更高效搭建一套面向业务应用场景的数据集市? 是否可以将产品敏捷方法论快速高效地应用在数据集市的搭建上?

一、基本概念 1. 数据仓库和数据集市

数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理层和业务层的经营分析和业务决策制定。数据仓库用于支持决策,面向分析型数据处理,为了进行OLAP,把分布在各个散落独立的数据库孤岛整合在了一个数据结构里面,称之为数据仓库。

有了数据仓库,为什么还需要数据集市呢?我们看看数据集市是为了解决什么问题。

数据集市可以理解为是一种“小型数据仓库”,它只包含单个主题,且关注范围也非全局。数据集市可以分为两种:

  • 一种是独立数据集市,这类数据集市有自己的源数据库和ETL架构;
  • 另一种是非独立数据集市,这种数据集市没有自己的源系统,它的数据来自数据仓库。

数据集市是一个结构概念,它是企业级数据仓库的一个子集,主要面向部门级业务,并且只面向某个特定的主题。

数据集市是数仓之上更聚焦的业务主题合集,更偏向于应对业务数据快速高效应用的需求,一般用于商业智能系统中探索式和交互式数据分析应用。

2. 产品敏捷方法论

现在绝大部分互联网公司都在使用敏捷开发,最流行也最成熟的敏捷开发框架当属Scrum。这里简单介绍下Scrum的三个重要角色和三个重要概念。

Scrum中的人员分为3个重要角色:产品所有者(Product Owner), Scrum Master(敏捷教练),开发团队(Dev Team)。

三个重要概念:Sprint,Product Backlog,Sprint Backlog。

  1. Sprint:一个冲刺或迭代周期,一般2~4周,是一个可以交付验收的产品需求功能集合;
  2. Product Backlog:产品需求集合,是产品规划中所有的需求点;
  3. Sprint Backlog:每个Sprint的功能需求点,来自于Product Backlog。

一般的Scrum开发流程如下:

为什么说数据集市项目特别适合使用Scrum方法来迭代:

  1. 数据集市需求划分明确。集市的业务域和主题域正好对应Scrum的Story和Sprint。
  2. 做出来的集市宽表是否有用,可以在某个业务域内先做一张,快速验证效果。
  3. 每个宽表的产出时间周期相对好评估,整体项目风险可控。

针对面向主题域的数据集市,来看看我们的计划和安排:

  • PO(Product Owner):数据产品经理。
  • SM(Scrum Master):数据研发主管。
  • Team(Dev Team):数据架构师,数据研发工程师,数据测试工程师。
  • Story:每个Story可以根据业务域来划分,比如我们划分了资金域,用户域,模型域,市场域,营销域,信审域,风控域,财务域,征信域。
  • Sprint:每个Sprint可以规划一到两张宽表,比如资金域我们规划了借款宽表,还款宽表,其他类似。
二、Scrum敏捷方法解决了哪些问题 1. 效率问题

以前开发一个主题域的数据集市,需要自顶向下进行建模设计、维度表设计、事实表设计、架构设计、数据表开发、表验证、表测试,完整的瀑布流走下来,几个月过去了,出来了一个大而全的数据集市,交付给分析师和业务。

分析师大呼看不懂,查起来还是很慢,很多表还是需要我来JOIN,业务也大呼为什么取个数据这么久,为什么做个分析要一周?

基于敏捷方法的数据集市建设,提高了整个生产流程的效率,针对具体的业务场景和分析师的需求,小步快跑地先建设一张或几张宽表,先产出给分析师,再不断调整数据字段,大大缩短了生产建设周期。

2. MVP验证问题

通过小步快跑模式,每个Sprint花费两周,建设1~2张宽表,解决一些核心的分析取数场景,然后再交付验证有价值后进行迭代,增加新的字段,不断进行MVP闭环验证。

3. 业务价值问题

直接基于业务分析场景和分析师使用场景来建设,基于怎么用来怎么设计宽表,可以快速验证并产生直接的分析价值和业务价值。相比于传统的自顶向下的瀑布建设流程,不追求大而全的数据集市和数据字段,紧密结合业务场景来进行设计。

三、案例分享 1. 项目介绍

数据集市项目启动前,已有一套数据仓库,初期只做了两层分层,一层ODS,一层DWD。

DWS层表很少几乎可以忽略不计。在业务分析过程中,我们发现很多的分析竟然还是依赖ODS层的表,部分能用到DWD层的表,说明数据仓库分层不明确,违反了数仓和数据集市建设的跨层访问的原则(一般来说分析师不用访问ODS层表)。

为了进一步打破数据孤岛,提升数据使用链上人员的工作效率,进一步快速支持分析和决策,我们打算建立一套基于现有的基础数仓上的数据集市层系列主题宽表。

2. 项目规划

我们采用Scrum敏捷方法来规划每个Sprint的迭代节奏,主题宽表和应用场景规划如下图:

3. 项目实施

项目团队搭建,除了常规的SCRUM核心团队以外,我们还加入了 需求来源团队以及用户团队。

需求来源团队数据产品经理收集需求和痛点的主要受访用户,用户团队是所有数据使用人员。其他的PO,SM和Dev,Test团队是敏捷开发的角色。具体项目团队配置分工如下:

4. 效果评估

Sprint1上线了借款主题域的两张宽表(借款还款和还款宽表),我们并没有迅速进入下一轮迭代,而是基于已上线的表收集使用价值以及评估降本提效的指标,整理如下表:

四、总结

  1. 数仓和数据集市建设,市面上有成熟的方法论;
  2. 传统的建设流程存在过程冗长,人员庞杂,脱离业务场景,价值评估存在偏差等问题;
  3. 敏捷Scrum方法框架可以优化数据集市建设流程,做到降本提效,紧密贴合业务;
  4. Scrum本质上是一套项目管理流程和敏捷迭代流程,要集合具体项目具体分析,吸取Scrum精华为我所用。

本文由 @乘风随行 原创发布于人人都是产品经理,未经许可,禁止转载。

题图来自Unsplash,基于CC0协议

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
谢杏芳的冷漠,彻底揭开林丹的“婚姻真相”,7年才看懂这盘大棋

谢杏芳的冷漠,彻底揭开林丹的“婚姻真相”,7年才看懂这盘大棋

舞娱天地
2024-07-06 15:14:04
顶薪!魔术与小瓦格纳签下5年2.24亿指定新秀条款 最高5年2.69亿

顶薪!魔术与小瓦格纳签下5年2.24亿指定新秀条款 最高5年2.69亿

直播吧
2024-07-06 03:08:16
更简洁的圆,那不勒斯更新俱乐部标志

更简洁的圆,那不勒斯更新俱乐部标志

懂球帝
2024-07-05 23:24:30
用力过猛?18岁女生与两男发生关系身亡,家属索赔80万:她太疼了

用力过猛?18岁女生与两男发生关系身亡,家属索赔80万:她太疼了

杨哥历史
2024-06-25 16:25:17
卫健委发布的痛风饮食指南之食物嘌呤含量一览表!记得收藏

卫健委发布的痛风饮食指南之食物嘌呤含量一览表!记得收藏

今日养生之道
2024-07-05 02:02:47
没想到,法拍网竟已到了Next Level !

没想到,法拍网竟已到了Next Level !

法律先生
2024-07-05 11:06:33
美国宇航员被困太空,外网有人建议:在嫦娥返回舱后面栓磁铁引回地球,举手之劳

美国宇航员被困太空,外网有人建议:在嫦娥返回舱后面栓磁铁引回地球,举手之劳

不掉线电波
2024-07-05 14:33:06
“酱油大王”跌落神坛?代工厂停产、三年连亏、一家三口成老赖!

“酱油大王”跌落神坛?代工厂停产、三年连亏、一家三口成老赖!

农村阿祖
2024-07-05 21:58:52
40岁李宇春巴黎看秀,头顶现白发,生图和精修图差距太大

40岁李宇春巴黎看秀,头顶现白发,生图和精修图差距太大

话娱论影
2024-06-27 10:42:54
收手吧谭松韵!别折磨观众眼睛了,34岁还演女大学生,发腮太明显

收手吧谭松韵!别折磨观众眼睛了,34岁还演女大学生,发腮太明显

小猫追剧
2024-07-04 18:05:19
陆毅发长文回应女儿霸凌同学!细节曝光,网友:好茶啊!

陆毅发长文回应女儿霸凌同学!细节曝光,网友:好茶啊!

皖声微言
2024-07-05 12:35:33
珠海与深圳的缘分只差一道桥,建设深珠通道:谁赞同?谁反对?

珠海与深圳的缘分只差一道桥,建设深珠通道:谁赞同?谁反对?

白浅娱乐聊
2024-07-06 17:43:04
演员丫蛋坦言:嫁给句号老师,是让我不会后悔的决定

演员丫蛋坦言:嫁给句号老师,是让我不会后悔的决定

圈里的甜橙子
2024-07-06 13:13:35
慈禧第一次看见电灯亮起,脱口而出喊了2个字,流传至今成口头禅

慈禧第一次看见电灯亮起,脱口而出喊了2个字,流传至今成口头禅

长风文史
2024-07-06 09:53:36
一名俄罗斯水手纵火焚烧俄罗斯海军导弹舰,叛逃至乌克兰

一名俄罗斯水手纵火焚烧俄罗斯海军导弹舰,叛逃至乌克兰

亡海中的彼岸花
2024-07-06 00:10:02
万科系平台曝雷!

万科系平台曝雷!

燕梳楼频道
2024-07-05 20:43:32
骁龙8Gen3+2亿像素,12GB+512GB跌至3066元,顶配旗舰降维打击

骁龙8Gen3+2亿像素,12GB+512GB跌至3066元,顶配旗舰降维打击

知心数码
2024-07-06 00:01:29
张芊任上海实业集团总裁

张芊任上海实业集团总裁

鲁中晨报
2024-07-06 17:23:02
刘德华演唱会做高危动作险坠落,自认年纪大了,门票被炒到六万块

刘德华演唱会做高危动作险坠落,自认年纪大了,门票被炒到六万块

八卦先生
2024-07-06 16:11:15
不许中国打通出海口,普京刚签字,首个反对国冒头,中企将遭制裁

不许中国打通出海口,普京刚签字,首个反对国冒头,中企将遭制裁

星辰故事屋
2024-07-06 12:07:34
2024-07-06 21:44:49
人人都是产品经理社区
人人都是产品经理社区
想要成为大牛先从学做产品开始
67142文章数 311199关注度
往期回顾 全部

科技要闻

AI公司没看上去有钱

头条要闻

大搞权钱交易的女厅官被开除公职 任职地多名干部被查

头条要闻

大搞权钱交易的女厅官被开除公职 任职地多名干部被查

体育要闻

糟糕的裁判,毁了“提前上演的决赛”

娱乐要闻

49岁林志玲在日本带娃被偶遇

财经要闻

李迅雷建议每年发5万亿国债十年50万亿

汽车要闻

预售12.3万-15.7万 吉利银河E5开启预售

态度原创

旅游
健康
游戏
本地
公开课

旅游要闻

7月8日起,广州这些旅游景区取消实名预约→

人类为何至今无法攻克渐冻症?

TOC8半决赛B组:三次登顶,火火力压群雄!

本地新闻

云游中国 | 走进安塞,寻觅黄土高原文化记忆

公开课

连中三元是哪三元?

无障碍浏览 进入关怀版