下文是对数据生命周期的浅析,欢迎批评指正。
1、每个缩略词的简要说明:
OLTP : 联机事务处理
DSA : 数据准备区
DW : 数据仓库
BISW : 商业智能语义模型
ETL : 提取,转换和加载
DM : 数据挖掘
OLTP系统的重点就是数据输入———增删查改数据。 此时数据模型是规范化的,保持最小的数据冗余。
优点是为数据输入和数据一致性提供了良好的性能。比如当需要修改某处属性时,仅需要一个位置上的修改,减少出错率。
缺点是数据不适合报告,因为规范化模型涉及多个表,查询复杂性能差。
DW系统是一个以检索数据和报告为目的设计的环境。 模型故意进行了冗余、减少表和简化表关系。
数据仓库设计称为星型架构,星型架构包括多个维度表和一个事实表。维度表表示要分析的数据主题,比如订单系统里,要分析客户、产品等维度。事实表包含事实和度量,比如订单数量。
另一种数据仓库架构称为雪花架构,很简单,星型架构的维度表进行规范化成多个维度表则为雪花架构。
从源系统提取数据、处理数据并将其加载到数据仓库的过程,称为ETL。
ETL过往往会涉及OLTP和DW之间数据准备区的(DSA)使用,DSA通常驻留在关系型数据库中,且DSA不会对最终用户开放。
BISW 是完整BI堆栈应用的模型,目的是提供灵活、高效的分析和报告功能。体系结构分三层:数据模型、业务逻辑与查询、数据访问。
DM 数据挖掘(后续补充......)