win2008sr怎么用iis做网站,河南网站建设工作室,网页设计免费素材,摄影剪辑培训班第9章 数据仓库和商务智能管理
9.1简介
数据仓库#xff08;Data Warehouse,DW)由两个主要部分构成#xff1a;首先是一个整合的决策支持数据库#xff0c;其次是用于收集、清洗、转换、存储来自于各种操作型数据源和外部数据源数据的相关软件程序。两者结合以支持历史的、…第9章 数据仓库和商务智能管理
9.1简介
数据仓库Data Warehouse,DW)由两个主要部分构成首先是一个整合的决策支持数据库其次是用于收集、清洗、转换、存储来自于各种操作型数据源和外部数据源数据的相关软件程序。两者结合以支持历史的、分析的和商务智能Business IntelligenceBI)的需求。
企业数据仓库Enterprise Data WarehouseEDW)是服务于整个组织商务智能需要的集中式数据仓库。 术语数据仓库活动Data WarehousingDW)用于描述为维护数据仓库中的数据而进行抽取、清洗、转换和加载等操作性的处理过程及相关控制的过程。
数据仓库活动提供技术解决方案以支持商务智能。“商务智能”是多种业务能力的集合。它包含了很多方面具体包括 1知识工作者执行查询、分析和报表的活动用于监控和了解企业财务运营情况支 持决策制定。 2查询、分析和报表相关的流程和规程。 3商务智能环境的代名词。 4商务智能软件工具的细分市场。 5基于企业操作型数据的战略/运营分析和报表从而支持业务决策、风险管理、合规 管理。 6决策支持系统Decision Support System,DSS的同义词。 数据仓库和商务智能管理的目标包括 ①对所需的当前和历史数据提供整合后的数据存储并按照主题域组织数据。 ②为所有合适的访问形式提供可信的、高质量的数据。 ③为数据获取、数据管理和数据访问提供稳定、高效、可靠的环境。 ④提供易于使用的、灵活的和全面的数据访问环境。 ⑤在内容和内容访问方面与组织目标相适应以增量方式交付。 ⑥要借助其他相关的数据管理职能如参考数据和主数据管理、数据治理、数据质量管理和元数据管理等而不重复建设这些职能。 ⑦交付数据时关注如何支持数据治理所发起的决策、政策、流程、定义以及标准等。 ⑧定义、构建并维护所有数据存储、数据处理过程数据基础设施和数据工具。在交易系统输出后经过整合和精细化处理的数据可以用于信息查看、分析或者满足数据请求。 ⑨整合商务智能处理过程所发现的新数据到数据仓库使其为进一步分析和商务智能所用。 9.2概念和活动
9.2.1 数据仓库活动——简要的历史回顾
数据仓库的典型特征:
1Inmon版 面向主题数据仓库中的数据既不面向功能也不面向应用是按照公司的主要实体进行组织的 整合数据仓库中的存储数据具有统一性和内聚性且覆盖多方面的内容包括数据键结构、结构的编码和解码、数据定义、命名习惯等并非仅仅是复制数据 数据快照数据仓库中的每一条数据在某个时间点是准确的并常常在其键结构中体现时间元素是数据记录在某一时刻的快照在每个快照的时间点上的记录都是准确的 相对稳定数据仓库在正常的处理过程中并不对记录进行更新如果确实需要更新也是特例 汇总和详细数据数据仓库中的数据必须包括汇总数据和详细数据数据汇总早期是基于成本考虑现在主要是基于性能考虑 历史记录相对于各业务系统数据仓库的特征就是包含大量的历史数据他们处于汇总级别数据越久汇总级别越高 2Kimball版 交换数据副本其结构是为查询和分析而设计 采用维度数据模型便于用户理解和使用提升查询效率不遵守范式规则 9.2.2 数据仓库和商务智能架构和组件
1Inmon的企业信息工厂CIF
下表列出并描述了从企业信息工厂角度看数据仓库和商务智能架构的基本组件: 下表给出每一个企业信息工厂组件的报表范围、目的及备注形成上下文环境: 下表从业务和应用角度在企业信息工厂的4个主要的组件之间进行比较和对照即在应用系统Application、操作型数据存储ODS、数据仓库DW和数据集市DM之间进行比较。 根据右侧的数据仓库和数据集市的信息与左侧的应用之间的比较有一些总体的规律特别如下 ①组件用途从执行转向分析。 ②终端用户通常是决策者而不是执行者一线人员。 ③系统更多的是即席操作而不是固定的交易操作。 ④响应时间的需求更加宽松因为战略决策相对于一般的日常操作而言能够容忍更长的响应时间。 ⑤在每一个操作/查询或其他处理会涉及更多的数据。 下表则从数据角度提供了企业信息工厂模型的4个主要组件之间的比较和对照即在应用、操作型数据存储、数据仓库和数据集市之间进行比较。 将右侧数据仓库和数据集市的信息与左侧的应用之间从数据的角度进行比较可发现一些总体规律特别如下 ①数据是面向主题的而不是面向功能的。 ②整合的数据不是“烟囱式”(stove-piped)或“竖井式”(or siloed)的孤立数据。 ③随时间变化的数据历史不是只有当前数据。 ④数据时延更高。 ⑤更多的历史数据。 2Kimball的业务发展生命周期和数据仓库象棋游戏
业务维度生命周期的根据是如下3个原则。 关注业务——既要满足即时的业务需求而且也要满足长期的广泛的数据整合和一致性。 原子性维度数据模型——既要使业务用户易于理解也要兼顾查询效率。 迭代演进管理——用独立的并限定范围的单个项目来管理数据仓库的变革和优化即使这样的项目可能会多的看不到终点。 Kimball的数据仓库象棋棋子视图 Kimball的数据仓库象棋棋子视图——组件描述
9.2.3 战术型、战略型和操作型商务智能
战术型商务智能是通过应用商务智能工具对同一度量进行月度或年度的比较分析业务趋势或者分析历史数据以发现需要引起注意的趋势。使用战术型商务智能以支持短期的业务决策。
战略型商务智能是经典的商务智能应用包括为高管提供度量指标常常与一些正式的业务绩效管理方法结合共同帮助管理层确定目标是否达成。使用战略型商务智能以支持公司的长期目标和目的。
操作型商务智能是为业务一线提供商务智能应用分析能力来指引经营性决策。操作型商务智能可用于管理和优化业务运营。操作型商务智能是以上这3个方法中最后一个在业界中出现的。操作型商务智能使商务智能应用和运营功能和流程相耦合但其对响应时延要求很高(需要近乎实时的捕获数据和交付数据)。因此必须使用更新的架构方法比如面向服务架构(Service-Oriented Architecture,SOA)以完整地支持操作型商务智能。
9.2.4 数据仓库活动的不同类型
1动态数据仓库
服务于战术和战略商务智能的数据仓库通常使用周期性的批处理任务具备Inmon提到的相对稳定的特性。而操作型商务智能则推动了对更低时延以及高实时性的将数据整合到数据仓库的需求。由此引入了变更隔离机制和数据ETL的新方法。动态数据仓库主要是针对实时性要求较高可以确保少量持续数据更新的业务需求得以实现。
2维多分析联机分析处理
联机分析处理OLAP主要是为多维分析查询提供高性能的解决方案。典型的联机分析输出矩阵格式。矩阵的行和列是查询结果的维度因素和度量是矩阵单元格的取值。这种展示方式可以很有效的展示汇总数据。
3ROLAP、MOLAP、HOLAP、DOLAP 关系型联机分析处理ROLAP在关系型数据库管理系统的二维表中实现多维关系以支持联系分析处理星型连接是常用的数据设计技术 多维联机分析处理MOLAP使用多维数据库技术来支持联机分析处理 混合联机分析处理HOLAPROLAP与MOLAP的简单组合 数据库联机分析处理DOLAP通过经典关系型数据库特殊的外围功能实现一个虚拟的联机分析处理立方体 9.2.5 维度数据建模的概念和术语
数据集市是建立在维度数据模型之上维度数据模型让终端用户对数据访问的理解更加简单易用。
维度数据模型是实体关系型数据模型的子集具备实体、属性和关系等基本组件。实体有两种基本类型事实度量、维度上下文。
1事实表
包含一个或多个事实用来存放度量的内容有一些度量是计算的结果有一些是控制列的数据。因此正确理解和使用元数据尤为重要。
事实表用来表达和解析维度间的多对多关系访问事实表也是一般从维度表开始。
2维度表
代表业务中重要的对象通常做为报表分组和报表标签的依据。维度结构通常是高度去范式化。维度详细设计的深度和质量决定了系统的分析用处支持对事实表中数据的分析。
典型的维度表只有少量的行数和很多列数。维度表的主要内容 ①代理键和非代理键 ②主键用于与数据仓库中的其他表关联 ③描述性元素编码、描述、名称、状态等 ④任何层次信息经常包括多个层次和类型的分解 ⑤业务键供业务用户确定特定的行 ⑥源系统标识字段用以追溯数据源 ⑦维度表的控制列与事实表的控制列类似但是维度表的控制列主要涉及维度的⑧历史信息如何保存设计实现有6种不同的类型。 维度必须为每一行设置一个唯一标识符通常通过代理键和自然键两种方式实现 代理键使用数字做为主键可以是顺序号也可以是随机码。通过ETL处理将数值主键与源系统主键进行映射。 自然键对于不希望创建额外主键的可以使用已经有的可以区分唯一数据行的数据。对于复杂的联结查询可能会影响效率。 3维度属性类型 类型1覆盖保留最新值不保留历史记录 类型2创建新行保留所有历史记录 类型3创建新列同一行中需要有多个字段保留不同的历史版本 类型4新表将过期的行迁移到历史表中现有表中的行数据被更新 类型6123 4维度模型
星型模型事实表位于中间连接多个维度表。重点在于中间的事实表通过单一的主键联接到周围的维度表。事实表具备多个维度表的键构成的复合键。
雪花模型是将星型模型中的平面的单表维度结构进行去范式化并转换成相应的层次或网状结构。3种常用的雪花模型 雪花表将层次结构解析到层次表中。如将一个日期维度表解构为详尽的日表和一个与日表关联的月表或年表。 划艇式表将维度表中的属性连接到其他维度表中的行。比如把一个表中员工的雇佣日期字段连接到时间区间维度表中以便于按照雇佣日期所在的财年对员工进行排序。 船桥式表两种情况。其一当两个维度之间存在多对多的关系不可能通过事实表解析。其二对深度不定的层次结构或不整齐的层次结构进行范式化。比如定义层次结构中的父子关系提升遍历效率。 粒度表示事实表中一行记录所代表的的含义或描述是一笔业务交易所对应数据的原子级别。
一致性事实表使用跨多个数据集市的标准化术语不同业务用户可能以不同的方式使用同一术语。
一致性维度是Kimball设计方法中可供多个数据集市使用的公共或共享的维度。通过对数据元素命名及相应的取值包含严格的子集等方式来定义一致性维度。从一致性维度获取的任何结果集中行头部都必须完全匹配。
5数据仓库总线架构和总线矩阵
一致性维度的数据仓库总线架构允许多个数据集市共存并通过接入总线实现一致性维度的共享。数据仓库总线的矩阵是以表格的形式展现数据集市/数据处理过程/主题域是否与共享的一致性维度相关。如下图所示
统一的概念是Kimball最有价值的贡献之一也成为数据仓库和商务智能管理中的重要设计文件需要检查维度表和事实表以及它们的源、更新逻辑、调度计划从而确定是否可以重用。
9.3数据仓库和商务智能管理活动
9.3.1 理解商务智能信息需求
数据仓库和商务智能管理成功的关键是在整个生命周期中始终保持一致的业务重点通过对企业价值链的观察理解业务背景第四部分介绍过获取价值链的方法。对于数据仓库和商务智能来说与其他业务不一样的是从更广泛的业务背景环境中理解目标业务领域。
在理解商务智能信息需求工作中有几项工作是非常重要的 ①选择适当的访谈对象识别业务领域并明确范围。通过对业务背景的理解和访谈对象反馈信息的分析来识别具体问题获取关键绩效指标度量和计算公式。 ②收集实际业务的词汇和术语并给予准确的定义。这也涉及到元数据管理职能。 ③数据剖析和ETL活动是商务智能需求分析的主要工作。这些工作与数据质量管理密不可分。 ④在这个过程重要特别注意源系统和数据录入功能中质量低下的数据会带来负面影响。这需要数据治理职能的参与。 最佳实践 ①为商务智能需求定制执行概要 ②执行概要包括业务环境总览、问题样例列表、对已有数据的质量、清洗、整合等不同层次活动的评注对相关的组织和业务职能的描述。也可能包括一张用于展示查询和报表途径的方案草图 ③会同业务部门共同审阅执行概要确定数据仓库和商务智能职能项目在项目集中的优先级 9.3.2 定义并维护数据仓库和商务智能架构
数据仓库和商务智能的架构设计遵循数据架构设计原则包括数据模型、数据技术架构、数据整合架构等内容。在本章内容中也介绍了Inmon和Kimball的架构和组件。这部分是针对以上内容进行一些补充在实践中还需要考虑哪些因素。
关键角色 技术架构师 数据架构师 ETL架构师 元数据专家 商务智能应用架构师 评估和整合适合的业务流程、架构以及技术标准所需的组件。从技术需求角度而言需要关注效率、可用性和及时性等方面的要求这也是选择所需组件的依据。
数据仓库和商务智能是针对数据流向的设计数据从哪里来获取到哪里去展现需要考虑何时何地因何而去如何去等问题这也是所有活动组织起来的框架。数据仓库需要关注包含哪些数据数据的详细程度如何如何设计数据回溯等内容的设计机制。使之从架构上与公司的业务需求和发展战略互为整合。同时要关注数据重用、共享和扩展的规划。
为了确保数据仓库和商务智能架构设计工作的成功还需要考虑一些相关支持活动 ①数据质量反馈环把变更整合到业务系统的难度 ②端到端元数据整个架构的含义和设计中能否实现透明性和可用性要求支持完整的端到端元数据流业务人员很清楚呈现的数据中数据元素和度量是什么含义 ③端到端可校验数据的血缘关系通过证据保管链随时了解记录的关系和历史记录 9.3.3 实施数据仓库和数据集市
数据仓库的目的是整合来自于多个数据源的数据整合后的数据为商务智能服务。数据使用者一般是通过数据集市或其他系统进行操作。数据仓库的设计一般是一个符合范式要求的关系型数据库。
数据集市为分析工作提供数据需要提供简单、易于理解、性能良好的数据访问方法。数据集市首选的设计方法是维度建模去范式化技术用于满足专门的业务分析需求。数据集市通过聚合和汇总的信息以支持更迅速的分析。
可以将第五章中提到的数据设计和数据库设计方法应用与数据仓库和数据集市的设计通过逐步反溯到所需的整合数据最终回到数据源的设计上。
9.3.4 实施商务智能的工具和用户界面
选择适合的商务智能工具和用户界面就是为正确的用户群选择合适的工具。不同使用角色对工具和用户界面以及数据使用深入程度均不相同。要根据用户需求确定使用专业性还是通用性的工具。
常用的商务智能工具有以下几类 查询和报表工具 联机事务分析OLAP工具 分析应用 实施管理仪表盘和记分卡 绩效管理工具 预测分析和数据挖掘工具 高级可视化和探索工具 9.3.5 处理商务智能所需数据
处理商务智能所需的数据需要一系列的活动
1暂存区
暂存区是进行原始数据源和中心数据存储库之间的数据存储包括对数据必需的清洗、转换、整合和关联。一般会在暂存区存放不进行任何转换的初始数据通过变更机制降低数据的传输量并根据业务优先级筛选数据以逐步迭代、渐进的方式进行数据的一致化、范式化。这些可以通过数据整合与转换来实现在暂存区一般只进行简单的复制操作。
2映射源和目标
源到目标的映射是用于对所有需要的实体和数据元素定义详细的数据类型及转换规则。数据仓库和商务智能在源到目标的映射过程中增加了一些额外处理为每个可用的数据元素提供完整的血缘关系。
这个过程中比较复杂的情况是为数据元素在多个数据源中确定正确的链接。可能涉及到具有相同数据的表和字段却没有相同的名字和结构。所以组织数据仓库的管理中统一的结构、黄金数据源、统一的参考数据和主数据的记录系统起着非常重要的作用。
3数据清洗和转换数据获取
数据清洗与转换是对不同来源数据的纠正和转换为不同数据源的整合提供服务。这需要数据治理职能的深入参与。
9.3.6 监控并调整数据仓库处理过程
数据仓库和商务智能监控的目的是达成数据的透明性和可见性。需要监控整个系统的处理过程以便发现处理过程的瓶颈和处理过程的依赖关系并将异常情况以明确的方式发送给相关人员。
数据仓库的管理也涉及到归档。通常用户认为数据仓库是对其他应用系统数据的归档活动其实对于数据仓库本身也应该进行归档操作。应当根据情况及时调整数据仓库中的数据。
9.3.7 监控并调整商务智能活动和性能
最佳做法是定义和显示一套面向客户的满意度调查。比如平均查询响应时间、每日/周/月的访问用户数量等。除了显示来自系统的统计度量外定期的收集数据仓库和商务智能的用户反馈也非常重要。可以通过对使用情况的统计数据和使用模式进行定期回顾对数据、查询、报表活动的频率和资源占用情况进行统计来优化性能。