数据仓库设计的过程是怎样的?
可以使用三种方法构建数据仓库-
自上而下的方法
自下而上的方法
两种方法的结合
自上而下的方法从完整的设计和规划开始。在技术复杂且熟悉的情况下,以及必须解决的业务问题清晰易懂的情况下,它会很有帮助。
自下而上的方法从实验和原型开始。这在业务建模和技术开发的开始阶段是有益的。它使组织能够以相当低的成本向前发展,并在做出重大承诺之前计算技术的优势。
在组合方法中,组织可以利用自上而下方法的计划和战略特征,同时保留自下而上方法的快速执行和机会主义软件。
一般来说,仓库设计过程包括以下步骤-
它可以选择要建模的业务流程,例如订单、发票、发货、库存、帐户管理、销售和总帐。如果业务流程是有组织的并且涉及多个复杂的对象集合,则应遵循数据仓库模型。但是,如果流程是部门性的并且专注于分析一种业务流程,则必须选择数据集市模型。
它可以选择业务流程的粒度。粒度是要在此过程的事实表中表示的基本的、原子级别的数据,例如,单个事务、单个日常快照等。
它可以选择将应用于每个事实表记录的维度。典型的维度是时间、项目、客户、供应商、仓库、交易类型和状态。
它可以选择将填充每个事实表记录的度量。典型的度量是数字累加数量,例如销售的美元和销售的单位。
由于数据仓库是设计和构建的,因此仓库的原始部署包含初始安装、部署规划、培训和定位。还应处理平台更新和维护。
数据仓库管理将包括数据更新、数据源同步、灾难恢复计划、管理访问控制和安全、管理数据增长、管理数据库性能以及数据仓库增强和扩展。
范围管理包含控制查询、维度和文档的数量和范围;限制数据仓库的大小;或限制时间表、预算或资源。
有多种数据仓库设计工具可供使用。数据仓库开发工具支持定义和编辑元数据存储库内容(包括模式、脚本或规则)、回答查询、输出报告以及向关系数据库系统目录发送元数据和从关系数据库系统目录发送元数据的功能。
规划和分析工具研究更改刷新率或时间窗口时架构更改和刷新性能的影响。