数据仓库
什么是数据仓库?
数据仓库是企业或其他组织对信息的安全电子存储。数据仓库的目标是创建可检索和分析的历史数据宝库,以提供对组织运营的有用洞察。
数据仓库是商业智能的重要组成部分。这个更广泛的术语包括现代企业用来跟踪他们过去的成功和失败并为他们的未来决策提供信息的信息基础设施。
- 数据仓库是企业或其他组织随时间推移存储信息。
- 营销和销售等各个关键部门的人员定期添加新数据。
- 仓库变成了一个历史数据库,可以检索和分析这些历史数据,以便为业务决策提供信息。
- 构建有效数据仓库的关键因素包括定义对组织至关重要的信息和识别信息来源。
- 数据库旨在提供实时信息。数据仓库被设计为历史信息的存档。
数据仓库的工作原理
随着企业开始依赖计算机系统来创建、归档和检索重要的业务文档,对数据仓库的需求也在演变。数据仓库的概念是由 IBM 研究人员 Barry Devlin 和 Paul Murphy 于 1988 年提出的。
数据仓库旨在支持对历史数据的分析。比较从多个异构来源整合的数据可以深入了解公司的绩效。数据仓库旨在允许其用户对源自事务源的历史数据进行查询和分析。
添加到仓库的数据不会更改,也无法更改。仓库是用于对过去事件进行分析的来源,重点关注随时间的变化。仓储数据必须以安全、可靠、易于检索和易于管理的方式存储。
维护数据仓库
需要采取某些步骤来维护数据仓库。第一步是数据提取,这涉及从多个源点收集大量数据。在编译一组数据后,它会进行数据清理,即梳理数据以查找错误并纠正或排除发现的任何错误的过程。
然后将清理后的数据从数据库格式转换为仓库格式。数据入库后,经过整理、整理、汇总,使用起来更方便。随着时间的推移,随着各种数据源的更新,更多的数据被添加到仓库中。
一本关于数据仓库的重要书籍是 WH Inmon 的“构建数据仓库”,这是一本实用指南,于 1990 年首次出版,并已多次重印。
今天,企业可以投资微软、谷歌、亚马逊和甲骨文等公司的基于云的数据仓库软件服务。
## 数据挖掘
企业数据仓库主要用于数据挖掘。这涉及寻找有助于他们改进业务流程的信息模式。
一个好的数据仓库系统可以让公司内的不同部门更容易地访问彼此的数据。例如,营销团队可以评估销售团队的数据,以决定如何调整他们的销售活动。
数据挖掘的 5 个步骤
数据挖掘过程分为五个步骤:
组织收集数据并将其加载到数据仓库中。
然后在内部服务器或云服务中存储和管理数据。
业务分析师、管理团队和信息技术专业人员访问和组织数据。
应用软件对数据进行分类。
最终用户以易于共享的格式呈现数据,例如图形或表格。
数据仓库的概念由两位 IBM 研究人员于 1988 年提出。
数据仓库与数据库
数据仓库与数据库不同:
数据库是一个事务系统,它监控和更新实时数据,以便仅提供最新的数据。
数据仓库被编程为随着时间的推移聚合结构化数据。
例如,数据库可能只有客户最近的地址,而数据仓库可能有客户过去 10 年的所有地址。
数据挖掘依赖于数据仓库。对仓库中的数据进行筛选,以便随着时间的推移深入了解业务。
数据仓库的优缺点
数据仓库旨在为公司提供竞争优势。它创建了一个相关信息资源,可以随着时间的推移进行跟踪和分析,以帮助企业做出更明智的决策。
它还可能耗尽公司资源,并使其现有员工承担旨在为仓库机器提供日常工作的任务。
Corporate Finance Institute 确定了维护数据仓库的这些潜在缺点:
创建和维护仓库需要大量时间和精力。
人为错误导致的信息缺口可能需要数年时间才能浮出水面,从而损害信息的完整性和有用性。
当使用多个来源时,它们之间的不一致会导致信息丢失。
TTT
数据仓库常见问题解答
以下是有关数据仓库的一些常见问题的答案。
什么是数据仓库,它的用途是什么?
数据仓库是历史数据的信息存储系统,可以通过多种方式进行分析。公司和其他组织利用数据仓库来深入了解过去的绩效并计划改进其运营。
什么是数据仓库示例?
考虑一家生产运动器材的公司。它的畅销产品是固定自行车,它正在考虑扩大其产品线并发起一项新的营销活动来支持它。
它进入其数据仓库以更好地了解其当前客户。它可以查明其客户主要是 50 岁以上的女性还是 35 岁以下的男性。它可以更多地了解在销售自行车方面最成功的零售商以及他们的位置。它可能能够访问内部调查结果,并找出他们过去的客户喜欢和不喜欢他们的产品的地方。
所有这些信息都有助于公司决定他们想要制造什么样的新型自行车,以及他们将如何营销和宣传这些自行车。这是硬信息,而不是直接决策。
数据仓库的阶段是什么?
根据行业出版物 ITPro Today 的说法,创建数据仓库至少有七个阶段。他们包括:
确定业务目标及其关键绩效指标。
收集和分析适当的信息。
识别提供关键数据的核心业务流程。
构建一个概念数据模型,显示数据如何显示给最终用户。
定位数据源并建立将数据输入仓库的流程。
建立跟踪持续时间。数据仓库可能会变得笨拙。许多都建立了归档级别,因此较旧的信息保留的细节较少。
实施计划。
SQL 是数据仓库吗?
SQL 或结构化查询语言是一种计算机语言,用于以数据库可以理解和响应的方式与数据库进行交互。它包含许多命令,例如“select”、“insert”和“update”。它是关系数据库管理系统的标准语言。
数据库与数据仓库不同,尽管两者都是信息存储。数据库是有组织的信息集合。数据仓库是从多个来源不断构建的信息档案。
底线
数据仓库是公司关于其业务及其随时间推移如何执行的信息的存储库。它是根据每个关键部门的员工的意见创建的,它是分析的来源,可以揭示公司过去的成功和失败,并为其决策提供信息。