什么是质量驱动数据仓库的设计?
数据仓库定义了一个独立于组织的操作数据库维护的数据库。数据仓库系统能够集成多个应用系统。它们通过支持用于分析的整合的历史记录的可靠平台来支持数据处理。
数据仓库可以被视为一组在远程基础关系上表示的物化视图。当查询是正式的时,它是在本地计算的,使用物化视图,而不访问初始数据源。
数据仓库是一个活跃的实体,随着时间的推移不断派生。随着时间的推移,他们需要回答新的查询。可以仅使用物化视图来回答各种查询。一般来说,尽管需要将新视图插入到数据仓库中。
在一些组织中基本的在线事务处理(OLTP)基础设施到位后,通过标准化的企业资源规划工具(包括SAP/R3)不是最小的,现在感兴趣的目标至少在三个方向上扩大-
组织内部和外部的更广泛的多媒体数据源。
具有不同兴趣和能力概况以及情境参数的更广泛的客户。
将交易处理产生的海量经验数据转化为适用于组织信息和行动的知识。
广泛的数据流物流架构正在被提出,包括供应链管理和企业对企业电子商务。在这种架构中,数据库可以被视为数据的短期和中期中间存储,而数据仓库则用于长期记忆、知识创建和管理。
数据仓库系统包括数据库(源数据库、数据仓库中的物化视图)、将记录从一个数据库传送到另一个数据库的数据传输代理,以及保存有关系统及其扩展的元数据的存储库。
在这种架构中,首先通过称为包装器的提取机制以统一的方法创建异构数据源,然后中介承担数据集成和冲突解决的服务。包装器和中介器之间的分离是经过深思熟虑的设计决策,反映了中间件系统(包括CORBA)中服务包装器和请求代理之间的分离。
生成的标准化和集成的记录作为物化视图保存在数据仓库中。这些基本视图通常略有汇总。它可以为多个分析师用户定制它们,将具有更多关于特定兴趣领域的聚合信息的数据集市构建为二级缓存,然后由数据分析工具渗透,从查询工具到电子表格工具再到成熟的数据挖掘系统。