一篇文章搞懂数据仓库:四种常见数据模型(维度模型、范式模型等)

07-17 1425阅读

一篇文章搞懂数据仓库:四种常见数据模型(维度模型、范式模型等)

一篇文章搞懂数据仓库:四种常见数据模型(维度模型、范式模型等)

一篇文章搞懂数据仓库:四种常见数据模型(维度模型、范式模型等)

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!

由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新

需要这份系统化资料的朋友,可以戳这里获取

维度建模从分析决策的需求出发构建模型,为分析需求服务。重点关注用户如何快速的完成数据分析,可以直观的反应业务模型中的业务问题,需要大量的数据预处理、数据冗余,有较好的大规模复杂查询的响应性能。

系列文章详见「数仓系列文章- 传送门」

一、为什么要进行数据仓库建模?

===============

  • 性能:良好的模型能帮我们快速查询需要的数据,减少数据的IO吞吐

  • 成本:减少数据冗余、计算结果复用、从而降低存储和计算成本

  • 效率:改善用户使用数据的体验,提高使用数据的效率

  • 改善统计口径的不一致性,减少数据计算错误的可能性

    二、四种常见模型

    ========

    2.1 维度模型


    维度建模按数据组织类型划分可分为星型模型、雪花模型、星座模型。

    Kimball老爷爷维度建模四个步骤:

    选择业务处理过程 > 定义粒度 > 选择维度 > 确定事实

    2.1.1 星型模型

    星型模型主要是维表和事实表,以事实表为中心,所有维度直接关联在事实表上,呈星型分布。

    一篇文章搞懂数据仓库:四种常见数据模型(维度模型、范式模型等)

    2.1.2 雪花模型

    雪花模型,在星型模型的基础上,维度表上又关联了其他维度表。这种模型维护成本高,性能方面也较差,所以一般不建议使用。尤其是基于hadoop体系构建数仓,减少join就是减少shuffle,性能差距会很大。

    星型模型可以理解为,一个事实表关联多个维度表,雪花模型可以理解为一个事实表关联多个维度表,维度表再关联维度表。

    一篇文章搞懂数据仓库:四种常见数据模型(维度模型、范式模型等)

    2.1.3 星座模型

    星座模型,是对星型模型的扩展延伸,多张事实表共享维度表。

    星座模型是很多数据仓库的常态,因为很多数据仓库都是多个事实表的。所以星座模型只反映是否有多个事实表,他们之间是否共享一些维度表。

    一篇文章搞懂数据仓库:四种常见数据模型(维度模型、范式模型等)

    2.2 范式模型


    即实体关系(ER)模型,数据仓库之父Immon提出的,从全企业的高度设计一个3NF模型,用实体加关系描述的数据模型描述企业业务架构,在范式理论上符合3NF。此建模方法,对建模人员的能力要求非常高。

    特点:设计思路自上而下,适合上游基础数据存储,同一份数据只存储一份,没有数据冗余,方便解耦,易维护,缺点是开发周期一般比较长,维护成本高。

    详见:一篇文章搞懂数据仓库:三范式与反范式_不吃西红柿-CSDN博客_数据仓库三范式

    一篇文章搞懂数据仓库:四种常见数据模型(维度模型、范式模型等)

    2.3 Data Vault模型


    DataVault由Hub(关键核心业务实体)、Link(关系)、Satellite(实体属性) 三部分组成 ,是Dan Linstedt发起创建的一种模型方法论,它是在ER关系模型上的衍生,同时设计的出发点也是为了实现数据的整合,并非为数据决策分析直接使用。

    2.4 Anchor模型


    高度可扩展的模型,所有的扩展只是添加而不是修改,因此它将模型规范到6NF,基本变成了K-V结构模型。企业很少使用。

    三 数据模型的评价标准

    一篇文章搞懂数据仓库:四种常见数据模型(维度模型、范式模型等)

    一篇文章搞懂数据仓库:四种常见数据模型(维度模型、范式模型等)

    一篇文章搞懂数据仓库:四种常见数据模型(维度模型、范式模型等)

    既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!

    由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新

    需要这份系统化资料的朋友,可以戳这里获取

    由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新**

    需要这份系统化资料的朋友,可以戳这里获取

VPS购买请点击我

文章版权声明:除非注明,否则均为主机测评原创文章,转载或复制请以超链接形式并注明出处。

目录[+]