数据仓库已经问世二十多年了,它已成为信息技术基础设施的基本组成部分。数据仓库的出现最初是为了满足对信息而不是对数据的企业需求。数据仓库是一个能够为企业提供整合的、粒度的、历史的数据的结构。
然而,数据仓库存在一个问题,即当前对数据仓库还存在多种不同的解释和实现方式。例如,有联合数据仓库、主动数据仓库、星状模式数据仓库、数据集市数据仓库等。实际上,有多少软硬件供应商,就有多少对数据仓库的诠释和实现方式。
还有一个问题就是,对什么样的结构才是数据仓库适合的,也存在着多种不同的解释和实现方式。而且,每一种实现在构架上都与其他的实现有很大区别。如果走进一个房间,里面联合数据仓库的支持者正在与主动数据仓库的支持者交谈,你也许会听到一些相同的词语,但这些词代表的意思却大相径庭。即使使用相同的词语,你听到的可能也不是有意义的交流。当两个不同背景的人交谈时,即使使用相同的词语,也不能保证他们彼此能够相互理解。
于是,今天的第一代数据仓库就处于这种情况下。
在陷入什么是数据仓库或什么不是数据仓库这样的混乱或疑惑的情况下,出现了DW20。DW20是对下一代数据仓库的定义。与术语“数据仓库”不同,DW20有着简明扼要和清晰可辨的含义。本书对其含义进行了论述和定义。
DW20中有很多重要的构架上的特征。这些构架特征代表了DW20相对于第一代数据仓库在技术和构架上的进步。在本书中,我们讨论了DW20的如下几种重要特性:
认识到数据仓库中数据的生命周期。第一代数据仓库仅仅将数据放于磁盘存储器(称之为仓库)中。事实上,数据一旦被置于数据仓库,它就有了自己的生命周期。进入数据仓库后,数据开始老化,数据被访问的可能性也逐渐降低。而数据访问的可能性降低对选择适当的数据管理技术有着深远的含义。另一种现象是,随着数据老化,数据容量会不断增加,并且大多数情况下这种增加是显著的。想要处理访问可能性不断降低的大量数据,就需要一种特定的设计,以免数据仓库的花费巨大,以至于不能有效地使用数据仓库。
当既包含结构化数据又包含非结构化数据时,数据仓库是最有效的方法。典型的第一代数据仓库完全由面向事务的结构化数据组成,这些数据仓库提供了大量有用的信息。然而,现代数据仓库应该同时包含结构化数据和非结构化数据。非结构化数据是一些文本数据,包括医疗记录、合同、电子邮件、电子表格以及很多其他的文档。非结构化数据中存在着大量的信息,但如何获取这些信息却着实是一个挑战。对创建同时包括结构化数据和非结构化数据的数据仓库都有哪些要求的具体描述是DW20中的一个重要部分。
由于多种原因,元数据并没有成为第一代数据仓库的重要组成部分。而在定义第二代数据仓库时,元数据的重要性和作用开始得到认可。在DW20中,问题并不是对于元数据的需求。元数据存在于数据库管理系统目录中,存在于业务对象领域中,存在于ETL数据预处理工具中,等等。我们需要的是企业元数据,是从企业级视角理解元数据,需要调节元数据的所有来源并将它们放置在一个能使它们协调工作的环境中。除此之外,在DW20环境中还需要技术元数据和业务元数据的支持。
数据仓库最终建立在一种技术基础之上。数据仓库是围绕业务需求展开的,这通常会反映在数据模型上。随着时间的推移,企业的业务需求会发生变化,但数据仓库的技术基础却不能很容易地改变。这样,就出现了一个问题,即业务需求持续变化,而技术基础却不变。企业中这种不断变化的业务环境与相对稳定的技术环境之间的矛盾会在机构内形成很紧张的局势。在本书的相关部分中,集中讨论了两种解决方案,用于处理数据仓库中这种变化的业务需求和不变的技术基础之间的难题。一种解决方案是采用诸如Kalido这样的软件,其为数据仓库提供了一种有延展性的技术基础。另一种解决方案是在数据库定义时,通过设计来分离静态数据和临时数据。这两种方案对数据仓库的技术基础随着业务需求的改变而改变来说有很好的效果。
另外,书中还讨论了其他一些重要的话题。其中一些包括:
DW20数据仓库基础设施的在线更新。
ODS适用于哪里?
针对DW20数据仓库的研究处理过程和统计分析。
DW20数据仓库环境下的归档处理。
DW20数据仓库环境下的近线处理。
数据集市及DW20。
数据仓库中的粒度数据和数据容量。
方法论及开发方式。
DW20的数据模型。
.本书的一个重要特色是运用示意图来从整体上描绘DW20的环境。示意图是经过多次咨询、研讨才确定的,它代表了DW20中放置在一起的不同组件,是DW20环境的一个基本构架表现。
此外,书中对数据仓库的结构、内容及其前景进行了介绍。本书适用于业务分析人员、信息构架师、系统开发人员、项目经理、数据仓库技术人员、数据库管理员、数据建模人员、数据管理员等。