资料地址:https://pan.baidu.com/s/19qB_ijGhkf-It3pInuVkNA 提取码:dxq2 
实战Flink+Doris实时数仓课程2023,视频+源码+文档+虚拟机下载。
1. 什么是数据仓库
数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。
随着人类IT发展,数据越来越多被产生,并且这些数据还可能跨部门,跨业务。如何把数据集成起来进行OLAP是个巨大挑战。
数据仓库(Data Warehouse)应运而生,数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理中的决策制定。
数据仓库是伴随着企业信息化发展起来的,在企业信息化的过程中,随着信息化工具的升级和新工具的应用,数据量变的越来越大,数据格式越来越多,决策要求越来越苛刻,数据仓库技术也在不停的发展。数据仓库的趋势:
实时数据仓库以满足实时化&自动化决策需求。
大数据&数据湖以支持大量&复杂数据类型(文本、图像、视频、音频)。
2,数据仓库是有结构的
在数据仓库中,数据存在着不同的细节级:原始数据(最细节的数据)、当前细节数据、轻度聚合数据和高度聚合数据,数据的粒度升级,是在数据由操作层传输到导出层进行的,一旦数据过期,就由原始数据导出当前细节数据,进而导出聚合数据。我们把聚合之后的数据称作缓存数据,这是为了定向提高某个主题或分析的查询性能。
不同的细节级,实际是由数据粒度的不同导致的,而粒度的升级通常是由时间、类别等属性聚合之后得到的。粒度会深刻地影响存储到数据仓库中的数据量的大小和数据仓库支持的查询类型。数据仓库中数据量的大小和粒度成反比,粒度越低,支持的查询范围越广泛,数据量越大。换句话说,低粒度可以回答任何问题,而高粒度会限制数据所能回答的问题。
由于高粒度会降低数据量,使得查询速度更快;而低粒度能够回答更多的问题,因此,在数据仓库中,一般根据数据被查询的频次,设计多重粒度,这样啊,既能使用高粒度快速响应高频问题,也能使用低粒度回答低频的问题。
数据仓库的一般阶段
早些时候,组织开始使用相对简单的数据仓库。然而,随着时间的推移,开始使用更复杂的数据仓库。
以下是使用数据仓库 (DWH) 的一般阶段:
离线操作数据库:
在这个阶段,数据只是从一个操作系统复制到另一个服务器。这样,复制数据的加载、处理和报告不会影响操作系统的性能。
离线数据仓库:
数据仓库中的数据定期从操作数据库更新。Datawarehouse 中的数据被映射和转换以满足 Datawarehouse 目标。
实时数据仓库:
在此阶段,每当操作数据库中发生任何事务时,都会更新数据仓库。例如,航空公司或铁路订票系统。
集成数据仓库:
在此阶段,当操作系统执行事务时,数据仓库会不断更新。然后,数据仓库生成传递回操作系统的事务。