数据仓库

本页使用了标题或全文手工转换,现处于中国大陆简体模式
求闻百科,共笔求闻
数据仓库的总览。

计算机领域,数据仓库(英语:data warehouse,也称为企业数据仓库)是用于报告数据分析的系统,被认为是商业智能的核心组件。[1]数据仓库是来自一个或多个不同源的集成数据的中央存储库。数据仓库将当前和历史数据存储在一起[2],用于为整个企业的员工创建分析报告。[3]

存储在仓库中的数据从运行系统(例如营销或销售)上传。这些数据可能会通过一个ODS数据库,并且可能需要进行额外操作的数据清理[2],以确保数据质量,然后才能在数据仓库中用于报告。

典型的基于提取、转换、加载(ETL)的数据仓库[4]使用分级数据集成和访问层来存放其关键功能。分级层或分级数据库存储从每个不同的源数据系统中提取的原始数据。集成层通过转换来自分级层的数据,将不同的数据集合在一起,通常将转换后的数据存储在ODS数据库中。然后将集成的数据转移到另一个数据库(通常称为数据仓库数据库),在这个数据库中,数据被分为层次组(通常称为维度),并被分成事实和聚合事实。事实和维度的组合有时被称为星型模式。访问层帮助用户检索数据。[5]

数据的主要来源被清理、转换、分类,并提供给管理人员和其他商业专业人员用于数据挖掘在线分析处理市场研究决策支持[6]然而,检索和分析数据、提取、转换和装载数据以及管理数据字典的方法也被认为是数据仓库系统的基本组成部分。许多数据仓库的文献都使用了这个更广泛的语境。因此,数据仓库的扩展定义包括商业智能工具、提取、转换和加载数据到存储库的工具,以及管理和检索元数据的工具。

较简易的解释方式

数据仓库是一种信息系统的资料存储理论,此理论强调利用某些特殊资料存储方式,让所包含的资料,特别有利于分析处理,以产生有价值的信息并依此作决策。

利用数据仓库方式所存放的资料,具有一但存入,便不随时间而更动的特性,同时存入的资料必定包含时间属性,通常一个数据仓库皆会含有大量的历史性资料,并利用特定分析方式,自其中发掘出特定信息。

较学术的解释方式

数据仓库 ,由数据仓库之父W.H.Inmon于1990年提出,主要功能乃是将组织透过信息系统之在线交易处理(OLTP)经年累月所累积的大量资料,透过数据仓库理论所特有的资料存储架构,作一有系统的分析整理,以利各种分析方法如在线分析处理(OLAP)、数据挖掘(Data Mining)之进行,并进而支持如决策支持系统(DSS)、主管信息系统(EIS)之创建,帮助决策者能快速有效的自大量资料中,分析出有价值的信息,以利决策拟定及快速回应外在环境变动,帮助建构商业智能(BI)。

一般来说,数据仓库可由关系数据库,或专为数据仓库开发的多维度数据库创建,若由多维度数据库创建而成,其架构可分为星状及雪花状架构,包含数个维度资料表,及一个事实资料表。

数据仓库的建制不仅只是信息工具技术面的运用,在规划和执行面更需对产业知识、营销管理、市场定位、策略规划等相关条件有深入的了解,才能真正发挥数据仓库以及后续分析工具的价值,提升组织竞争力。

数据仓库的特性

  • 主题导向(Subject-Oriented)
有别于一般OLTP系统,数据仓库资料模型设计,着重将资料按其意义归类至相同的主题区(subject area),因此称为主题导向。举例如Party、Arrangement、Event、Product等。
  • 集成性(Integrated)
资料来自企业各OLTP系统,在数据仓库中是集成过且一致的。
  • 时间差异性(Time-Variant)
资料的变动,在数据仓库中是能够被纪录以及追踪变化的,有助于能反映出能随着时间变化的资料轨迹。
  • 不变动性(Nonvolatile)
资料一旦确认写入后是不会被取代或删除的,即使资料是错误的亦同。(i.e.错误的后续修正,便可因上述时间差异性的特性而被追踪)

ODS、数据仓库和资料超市之异同

Operational data store(ODS)、数据仓库资料超市三者相同之处在于均不属于任一OLTP系统,并且都是以资料导向的设计而非流程(process)导向。

相异之处在于,ODS的特性较著重于战术性查询,变动性大。数据仓库通常为企业层级,用来解答即兴式、临时性的问题。而资料超市则较偏向解决特定单位或部门的问题,部分采用维度模型(dimensional model)。

数据挖掘、OLAP和数据仓库

数据仓库可以作为数据挖掘OLAP等分析工具的数据源,由于存放于数据仓库中的资料,必需经过筛选与转换,因此可以避免分析工具使用错误的资料,而得到不正确的分析结果。

数据挖掘OLAP同为分析工具,其差别在于OLAP提供用户一便利的多维度观点和方法,以有效率的对资料进行复杂的查询动作,其默认查询条件由用户预先设置,而数据挖掘,则能由信息系统主动发掘数据源中,未曾被察觉的隐藏信息,和透过用户的认知以产生知识。

数据挖掘(Data Mining)技术是经由自动或半自动的方法探勘及分析大量的资料,以创建有效的模型及规则,而企业透过数据挖掘更了解他们的客户,进而改进他们的营销、业务及客服的运作。 数据挖掘是数据仓库的一种重要运用。基本上,它是用来将你的资料中隐藏的信息挖掘出来,所以 Data Mining 其实是所谓的 Knowledge Discovery 的一部分,Data Mining 使用了许多统计分析与 Modeling 的方法,到资料中查找有用的特征(Patterns)以及关连性(Relationships)。 Knowledge Discovery 的过程对 Data Mining 的应用成功与否有重要的影响,只有它才能确保 Data Mining 能获得有意义的结果。

参见

参考文献

  1. Dedić, Nedim; Stanier, Clare. Hammoudi, Slimane; Maciaszek, Leszek; Missikoff, Michele M. Missikoff; Camp, Olivier; Cordeiro, José , 编. An Evaluation of the Challenges of Multilingualism in Data Warehouse Development. International Conference on Enterprise Information Systems, 25–28 April 2016, Rome, Italy (PDF). Proceedings of the 18th International Conference on Enterprise Information Systems (ICEIS 2016) 1 (SciTePress). 2016: 196–206 [2019-05-19]. ISBN 978-989-758-187-8. doi:10.5220/0005858401960206.  参数|journal=与模板{{cite conference}}不匹配(建议改用{{cite journal}}|book-title=) (帮助)
  2. 2.0 2.1 9 Reasons Data Warehouse Projects Fail. blog.rjmetrics.com. [2017-04-30]. 
  3. Exploring Data Warehouses and Data Quality. spotlessdata.com. 
  4. What is Big Data?. spotlessdata.com. 
  5. Patil, Preeti S.; Srikantha Rao; Suryakant B. Patil. Optimization of Data Warehousing System: Simplification in Reporting and Analysis. IJCA Proceedings on International Conference and workshop on Emerging Trends in Technology (ICWET) (Foundation of Computer Science). 2011, 9 (6): 33–37 [2019-05-19]. 
  6. Marakas & O'Brien 2009