OLE DB for DM数据仓库
概念、设计及应用
提纲
1.为什么要建立数据仓库2. 数据仓库的概念及特性3. 数据仓库的结构4. 数据仓库的设计5. 数据仓库的开发过程6. 数据仓库的典型应用
事务处理环境不适宜DSS应用的原因
事务处理和分析处理的性能特性不同
抽取程序
用抽取程序能将数据从高性能联机事务处理方式中转移出来,在需要总体分析数据时就与联机事务处理性能不发生冲突。用抽取程序能将数据从联机事务处理范围内移出时,数据的控制方式就发生了转变。
蜘蛛网问题
数据缺乏可信性
体系结构设计环境的层次
数据操作层只保存原始数据并且服务于高性能事务处理领域;数据仓库层存储不更新的原始数据,此外一些导出数据也在此存在;数据的部门层几乎只存放导出数据;在数据个体层中完成大多数启发式分析
数据仓库的概念
数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合。 [William H.Inmon] 与其他数据库应用不同的是,数据仓库更像一种过程,对分布在企业内部各处的业务数据的整合、加工和分析的过程。
数据仓库的特性
面向主题
数据仓库的结构
数据仓库设计中的几个重要概念
ETL
典型的元数据包括:
数据仓库表的结构数据仓库表的属性数据仓库的源数据(记录系统)从记录系统到数据仓库的映射数据模型的规格说明抽取日志访问数据的公用例行程序
数据仓库设计中的几个重要概念 (续)
Data Mart
企业数据模型到数据仓库数据模型的转换
除去纯粹用于操作型环境的数据在企业键码结构中增加时间元素增加导出数据创建人工关系
数据模型的规范化/反规范化
为了减少程序在表中的跳转、节省I/O,需将多个相关的表合并;引入冗余数据;当访问概率有很大悬殊时,要对数据做进一步分离;在物理数据库的设计中引入导出数据可以减少I/O;建立所谓的“