网页制作与网站建设教程,健康门户网站源码,凡科网网站怎么设置会员登录板块,网站制作套餐原因
用空间换时间#xff0c;通过大量的预处理来提升应用系统的用户体验#xff08;效率#xff09;#xff0c;因此数据仓库会存在大量冗余的数据。如果不分层的话#xff0c;如果源业务系统的业务规则发生变化将会影响整个数据清洗过程#xff0c;工作量巨大。通过数…原因
用空间换时间通过大量的预处理来提升应用系统的用户体验效率因此数据仓库会存在大量冗余的数据。如果不分层的话如果源业务系统的业务规则发生变化将会影响整个数据清洗过程工作量巨大。通过数据分层管理可以简化数据清洗的过程因为把原来一步的工作分到了多个步骤去完成相当于把一个复杂的工作拆成了多个简单的工作把一个大的黑盒变成了一个白盒每一层的处理逻辑都相对简单和容易理解这样我们比较容易保证每一个步骤的正确性当数据发生错误的时候往往我们只需要局部调整某个步骤即可。 分层 数据仓库标准上可以分为四层ODS临时存储层、PDW数据仓库层、DM数据集市层、APP应用层。
ODS层
为临时存储层是接口数据的临时存储区域为后一步的数据处理做准备。一般来说ODS层的数据和源系统的数据是同构的主要目的是简化后续数据加工处理的工作。从数据粒度上来说ODS层的数据粒度是最细的。ODS层的表通常包括两类一个用于存储当前需要加载的数据一个用于存储处理完后的历史数据。历史数据一般保存3-6个月后需要清除以节省空间。但不同的项目要区别对待如果源系统的数据量不大可以保留更长的时间甚至全量保存
PDW层
为数据仓库层PDW层的数据应该是一致的、准确的、干净的数据即对源系统数据进行了清洗去除了杂质后的数据。这一层的数据一般是遵循数据库第三范式的其数据粒度通常和ODS的粒度相同。在PDW层会保存BI系统中所有的历史数据例如保存10年的数据。
DM层
为数据集市层这层数据是面向主题来组织数据的通常是星形或雪花结构的数据。从数据粒度来说这层的数据是轻度汇总级的数据已经不存在明细数据了。从数据的时间跨度来说通常是PDW层的一部分主要的目的是为了满足用户分析的需求而从分析的角度来说用户通常只需要分析近几年如近三年的数据的即可。从数据的广度来说仍然覆盖了所有业务数据。
APP层
为应用层这层数据是完全为了满足具体的分析需求而构建的数据也是星形或雪花结构的数据。从数据粒度来说是高度汇总的数据。从数据的广度来说则并不一定会覆盖所有业务数据而是DM层数据的一个真子集从某种意义上来说是DM层数据的一个重复。从极端情况来说可以为每一张报表在APP层构建一个模型来支持达到以空间换时间的目的数据仓库的标准分层只是一个建议性质的标准实际实施时需要根据实际情况确定数据仓库的分层不同类型的数据也可能采取不同的分层方法。