搜档网
当前位置:搜档网 › 数据仓库项目需求分析

数据仓库项目需求分析

数据仓库项目需求分析
数据仓库项目需求分析

数据仓库项目需求分析 This manuscript was revised by the office on December 10, 2020.

数据仓库项目需求分析

一、简述

数据仓库项目是一个复杂的过程,项目的开发涉及到多方面的问题和风险:技术风险、数据质量问题、项目管理问题,但最项目中中最隐蔽、最容易忽略、最难控制的一环,就是需求的调研和分析。需求分析不深入、不准确的结果就是系统完成后没有人愿意使用它。因此我们要采取有效的措施的来避免这种情况。

二、需求分析的原则

1、让用户参与,尽力让用户的高层参与,双方要紧密配合

2、要迅速、全面的理解用户的业务及工作流程

3、培训,要不停的向用户灌输数据仓库与传统业务系统的不同做法

4、不要求完美,而要求实用,应用将是螺旋上升的。

5、项目有整体规划,调研可以全面,但一定要向用户界定好各阶段的范

围。

备注:

对我们来讲,我们不但要了解用户使用那些报表来完成那些任务,同时我们还要了解业务系统对用户需求的支持,同时,由于我们在这一行业已经积累了一些经验,也了解我们可以为用户解决那些问题,因此,从某种角度来讲,我们会比客户更多的理解系统的功能。所以在需求调研的时候,一定要提出自己的见解,哪怕是错误的也不要紧;另外,需求会因为业务变化,因此,与其等用户的业务变化再跟着改,不如主动了解业务,建议用户按照自己的想法做。

另外,由于用户对数据仓库的概念和认识是非常模糊的,他们不清楚数据仓库到底能实现什么,能解决什么问题。因此,我们经常会发现,我们完成了系统,用户却只用系统1%的功能,这就需要我们在对用户的培训方面和直观教育方面多下一点功夫。我们应该准备一些以前做过的相关案例,告诉用户当时设计这个系统是为了解决什么问题,以及这个问题的解决办法。

三、需求分析方法

要了解听众对演讲内容的看法、员工对项目组的看法、员工对公司的看法、用户对系统的看法,最好的途径就是设置调查表。实际上,在生活中,向长者请教、拜访用户、参加培训,事先这种问题的设计都非常重要,也非常有效,调查表可以使访谈直奔主题,使调研逻辑层次分明,使调研全面同时又重点突出。

四、需求分析的对象

对于数据仓库项目来讲,需求分析实际上应该分为两大类:

1、系统功能分析

任何系统都是前端用户的需求也就是用户对系统的功能要求,是用户期望系统能够为他们解决的问题。在对用户调研时,要注意分清楚用户的类别,不同用户对系统的要求是不同的。通常我们会将用户分为查询用户、报表用户、决策者,然后分析这些用户各自的行为、职责;同时我们要注意客户中还存在这样一类人,这些人是业务系统专家或信息系统人员,他们提供业务和IT的转换支持,他们推动这个项目的进行,但他们并不是最终用户。在调研中调研一定要注意分清,这些人可能非常愿意帮你,给你讲解他们理解的系统应该具备哪些功能,但往往这些理解是有很大偏差的。

在做调研时,要注意适时对用户讲解数据仓库的框架,让用户了解自己系统构建完毕后,自己所处的位置和能够解决的问题。因此,不但要注意整理相关的调研单(主要是设计一些问题),更要注意准备一些合适的演示资料,帮助用户理清思路,发挥想象力,争取最大限度的获取用户的需求信息。

2、后台的数据接口调研

①对于数据接口来讲,由于我们是建立其他业务系统之上,原有的业务系

统开发商对我们有一种自然的抵触,因此,在与他们打交道的时候,最

好是通过客户,即便是后期的问题交流也最好通过客户,这样做有两个

好处:一是通过客户,我们和对方的为客户所做的工作可以向用户表

明;二是通过用户可以避免对方对我们不理睬或对我们工作的拖延。

②在三方配合工作时,在适当的时候,我们要提供接口确认文挡,将各家

的责任明确,并签字认可。

这两部分需求调研的开始并没有严格的先后顺序,但是最终的后台接口的需求确认必须在用户需求定义以后。

三、需求分析阶段

1、调研准备阶段

从项目有意向开始,到项目合同签定,开始实施的这一段时间,都可以认为是项目的准备阶段。在这一阶段,我们可能会根据用户的要求,配合市场人员完成售前的技术支持工作。虽然在这一阶段,我们不会对用户具体的业务细节进行询问,但项目从这个阶段就已经启动,我们必须从这个时候就可是积累与此项目相关的资料,必须从这个阶段就在可利用的各个场合了解用户的信息。在这个阶段我们要准备以下工作:

1、用户行业的总体了解

2、技术方案准备

3、相关培训资料的准备(行业成功案例和经验总结)

4、访谈中的业务交流,在本阶段的访谈中,用户对数据仓库的理解较浅,

他们往往会关注下面一些宏观问题:

①效率,当前数据量下的所需的处理时间、响应时间(最好准备好以

前项目中处理效率的实例)

②负载能力,能支持多少用户访问(是否能支持不同区域、不同网段

的用户访问),用户访问的响应能力如何

③准确性,数据集中后是否可以准确

④灵活性,比如有多少种图形和显示方式;是否支持复杂的报表格式

⑤信息利用,能以几种格式将结果导出或以何种方式处理分析内容

⑥性价比,价格永远是用户最关心的

⑦压力测试(运行是否稳定、管理是否方便)

2、业务调研

在本阶段调研中,主要是了解用户当前的业务流程和系统概况,并搜集相关的资料和数据,以准备下一阶段的分析。本阶段调研的主要内容

1、用户的组织结构和工作流程

2、用户业务种信息流动的过程和当前的信息结构

a.用户当前的业务系统和各系统的主要功能

b.各系统能够获取的数据内容

c.各系统相互之间的联系

d.各系统目前的数据状况

3、主要的应用报表解释

(调研问题设计:)

3、系统调研

本阶段要细致的分析整理用户报表及业务系统数据,仔细揣摩决策系统各级用户关心的问题;构建分析模型原型,与用户之间互动讨论,确定分析指标、维度和组合规则及计算公式。

在本阶段,我们要利用快速原型法,通过原型来引导客户和正确理解客户的需求。当然,数据仓库项目的原型与普通项目有点不同,它的原型分为两类。一部分是前端表现的原型,一部分是多维分析模型的原型。对于前端表现的原型,我们要完成一个pilot项目的搭建,向用户介绍将来系统的表现形式(主要要表现的是前端产品的二次开发,二次开发要体现出用户的应用流程)。对于多维分析模型的原型,我们主要用它来完成数据仓库应收集的内容的调研。(调研问题设计:)

4、整理分析模型

通过原型收集了用户需求后,讨论修改后,确认相应的数据来源,完成分析模型描述

5、完成系统需求说明书

五、注意的问题

1、每次与用户交流完毕后,必须有相关的业务交流记录和调研总结。

2、诚实原则。市场人员为了签订合同,可能用图片和演示文档为用户描述了数

据仓库的美好前景,以便让用户产生兴趣。但同时这也使用户产生了对数据仓库的过高的预期,但是,我们在调研时一定要事实求是,最起码要对当前能实现的和不能实现的界定清楚。

3、数据仓库是一个强调实用的平台,也是一个涉及面很广的系统,每天都有层

出不穷的新技术和工具产生,作为数据人员,要关注这些新的技术和新的工具,了解它们的用处,它们能够解决的问题,从而在调研和培训时能够提出好的思路,能够非常容易的解决问题。

4、项目需求一定条理化、清楚,不同期项目的界线要划得清楚,另外,对于需

求要分优先级(好做的且对用户影响比较大的先做出来)。对于每一条需求,都应该和客户方确认

5、数据仓库项目非常关注对数据的验证上,尤其是项目涉及到考核因素时。而

数据仓库在数据采集、清洗、整理过程中出现数据偏差的可能性非常高,因此一点点的偏差对于用户会不会使用数据仓库都有可能是致命的。因此应注意同用户讨论好这个问题,讨论好能够承受的误差率。

数据仓库实例

计算机
王莹

本例采用的是SQl Server2005所提供的商业智能服务和工 具,主要包括Analysis Services(分析服务), Integration Services(集成服务),Reporting Services(集成服务)和Bussiness Intelligence Developer Studio(BIDS)。

分析服务(Analysis Services) SQL Server 分析服务(SSAS)是一个用于分析数据仓库中数据的工 具,它包括了OLAP和数据挖掘工具。在SQL Server 2005数据库系统 中,Analysis Services工具以服务器的方式为用户提供管理多维数 据立方体的服务。Analysis Services可以把数据仓库中的数据组织 起来,经过预先的聚集运算,加入到多维立方体中(即建立立方 体),然后对复杂的分析型访问做出迅速的回答。

集成服务(Integration Services) SQL Server 集成服务(SSIS)被定位成一个能生成高性能数据集成解决 方案(包括数据仓库中数据的提取、转换和加载(ETL))的平台。其集 成的含义主要就是指把ETL集成在一起。SSIS通过一个统一的环境向用户 提供了数据转换服务(DTS)所能提供的所有功能,并且大大减少了用户 花在编写程序和脚本上的精力和时间。 SSIS的基本功能包括:
? ? ? ? ? ? 合并来自异类数据源中的数据 填充数据仓库和数据集市 整理数据和将数据标准化 精确和模糊的查找功能 将商业智能置入数据转换过程 使管理功能和数据加载自动化

数据仓库基本架构

数据仓库的基本架构 xiaoyi发表于 2013-07-31 23:57 来源:网站数据分析 数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。其实数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放给外部应用,这也是为什么叫“仓库”,而不叫“工厂”的原因。因此数据仓库的基本架构主要包含的是数据流入流出的过程,可以分为三层——源数据、数据仓库、数据应用: 从图中可以看出数据仓库的数据来源于不同的源数据,并提供多样的数据应用,数据自上而下流入数据仓库后向上层开放应用,而数据仓库只是中间集成化数据管理的一个平台。 数据仓库从各数据源获取数据及在数据仓库内的数据转换和流动都可以认为是ETL(抽取Extra, 转化Transfer, 装载Load)的过程,ETL是数据仓库的流水线,也可以认为是数据仓库的血液,它维系着数据仓库中数据的新陈代谢,而数据仓库日常的管理和维护工作的大部分精力就是保持ETL的正常和稳定。 下面主要简单介绍下数据仓库架构中的各个模块,当然这里所介绍的数据仓库主要是指网站数据仓库。 数据仓库的数据来源

其实之前的一篇文章已经介绍过数据仓库各种源数据的类型——数据仓库的源数据类型,所以这里不再详细介绍。 对于网站数据仓库而言,点击流日志是一块主要的数据来源,它是网站分析的基础数据;当然网站的数据库数据也并不可少,其记录这网站运营的数据及各种用户操作的结果,对于分析网站Outcome这类数据更加精准;其他是网站内外部可能产生的文档及其它各类对于公司决策有用的数据。 数据仓库的数据存储 源数据通过ETL的日常任务调度导出,并经过转换后以特性的形式存入数据仓库。其实这个过程一直有很大的争议,就是到底数据仓库需不需要储存细节数据,一方的观点是数据仓库面向分析,所以只要存储特定需求的多维分析模型;另一方的观点是数据仓库先要建立和维护细节数据,再根据需求聚合和处理细节数据生成特定的分析模型。我比较偏向后面一个观点:数据仓库并不需要储存所有的原始数据,但数据仓库需要储存细节数据,并且导入的数据必须经过整理和转换使其面向主题。简单地解释下: (1).为什么不需要所有原始数据?数据仓库面向分析处理,但是某些源数据对于分析而言没有价值或者其可能产生的价值远低于储存这些数据所需要的数据仓库的实现和性能上的成本。比如我们知道用户的省份、城市足够,至于用户究竟住哪里可能只是物流商关心的事,或者用户在博客的评论内容可能只是文本挖掘会有需要,但将这些冗长的评论文本存在数据仓库就得不偿失;

数据仓库系统建设方案详细

河北省工商银行 数据仓库系统建设方案 建 议 书

北京世纪明日网络科技有限公司 二零零零年三月 河北省工商银行数据仓库系统建设方案 目录 第一章前言 1.1数据仓库发展史 1.2竞争日趋激烈的金融市场 1.3中国专业银行面临的挑战 1.4中国专业银行实施数据仓库的意义 1.5中国专业银行实施数据仓库已具备的条件 第二章数据仓库总体概述 2.1 数据仓库基础 2.2 数据仓库技术概述 2.3 一个可扩展数据仓库的基本框架

2.4 一个数据仓库实施流程 第三章系统体系结构设计 3.1系统设计指导思想 3.2 方案总体框架图 3.3 系统体系结构设计 3.4 系统方案的组成 第四章银行数据仓库的建设 4.1 面向应用的OLTP系统和面向主题的OLAP系统 4.2 个性化服务的定义 4.3 业务探索/业务发掘 4.4 建立市场客户信息基础 4.5 利用数据仓库实现的基本模块 4.6 更高层次的开发应用 4.7 综合信息发布 第五章方案实施建议 5.1 开发模式 5.2 组织机构 5.3 项目实施进程

5.4 项目进度计划 第六章产品报价 6.1 软件产品报价 6.2 硬件产品报价 6.3 项目开发实施费用 第一章前言 1.1 数据仓库发展史 相对于许多行业而言,信息处理技术还是一门新兴的技术,但是其发展速度却几乎是最快的。随着计算机硬件技术的飞速发展,软件技术也是日新月异。 许多企业和机构已经建立了相对完善的OLTP(联机事物处理)系统。随着时间的推移,这些系统中积累了大量的历史数据,其中蕴含了许多重要的信息。通过对这些历史数据的分析和综合处理,可以找到那些对企业发展至关重要的业务信息,从而帮助有关主管和业务部门作出更加合理的决策。70年代中期出现的MIS(管理信息系统)实际上就是在这种背景下产生的。 但MIS具有极大的局限性。首先,它是按预先定义好的流程对数

全面认识数据仓库

全面认识数据仓库 1.前言 随着我行信息科技工作进入后蓝图时代,后线分析系统注1建设的需求会越来越高,将在快速响应、高效实施、灵活应变、信息统一、全局分析、深度挖掘、监管有力、报送及时、降低成本等方面提出更多新的挑战。面对蓝图成功投产后新的产品体系,如何统一规划全辖数据资源、整合后线产品架构、准备各项技术预研可能是将来信息科技工作的一个重心。 数据仓库(DW)是各行业后线系统发展的一个重要方向,它在克服部门级应用的局限(数据分隔注2、重复存储、重复中间加工过程注3、维护工作繁琐、资源重复投入等)、满足全辖基础数据共享、提供全局分析视角和应用组件、支持快捷灵活和低成本的开发部署等方面有着不可替代的功能和地位。 数据仓库本身有着不同视角的概念解释,大可涵盖整个企业级应用架构,小可专注于单纯的数据建模与存储;数据仓库涉及重多相关技术,如ETL、数据模型设计、多维分析、数据挖掘等;数据仓库建设可能是一个复杂高难的全局性项目,正确的实施路径、策略、方法与有效的质量管理是项目成败的关键;另外,数据仓库系统实施后的管理与维护,也是保证各类后线应用系统长期顺利运行的重要因素。针对这些数据仓库相关的概念、技术、策略、方法等,可能并不是每个人都有比较全面的了解。因此有必要对这些做一个系统的介绍,使大家对数据仓库有一个全面清晰的认识。

2.数据仓库入门介绍 ?应用需求背景 随着联机事务处理(OLTP)业务系统的深入应用,企业各类业务数据不断积累和丰富,越来越需要从大量数据中提取有价值的信息,以辅助决策和指导经营。管理信息系统(MIS)和早期的决策支持系统注4(DSS)主要是基于传统的数据库技术和事务处理环境,这种系统结构随着业务系统建设规模的扩大、数据量的巨增和数据复杂度的提高,已无法满足综合分析型应用的需求,造成数据丰富而信息贫乏的困境。 首先,人们逐渐认识到,分析处理和事务处理具有极不相同的性质,事务处理通常是对数据库进行联机的查询和修改操作,每笔交易的响应时间和数据的安全完整是关键;而分析型处理往往是对大规模历史数据的批量加工计算,数据的规范统一和整体时间窗口是重要关注点。因此直接采用传统数据库技术和使用事务处理环境来支持分析型系统是不合适和失败的。两类系统的特点比较见表-1: 表-1 另一方面,企业的各类应用系统是在不同时期通常由各部门或分支机构面向

数据仓库建设的几点建议.doc

北京甲骨文软件有限公司咨询经理鲁百年博士 一、国内信息化的现状 1、信息化建设的发展历史: 在国内信息化建设过程中,基本上是按照当时业务系统的需求进行建设,例如:在一个企业中,财务部门为了减少工资发放的差错,提高发放的效率,先建设一个工资发放和管理程序;为了报账和核对的需求,建设一个财务管理程序;在银行首先为了业务处理的方便,将最基本的手工记帐和处理的业务建成一个系统,过一段时间,如果有新的业务推出,就再建设一个新的系统,或在原系统的基础上增加新的业务处理。这样的结果使每个系统和系统之间缺少真正的信息沟通和信息交换。 2、为何要建立数据仓库: 前面我们讲过,业务系统各自为政,相互独立。当很多业务系统建立后,由于领导的要求和决策的需求,需要一些指标的分析,在相应的业务系统基础上再增加分析和相应的报表功能,这样每个系统就增加了报表和分析功能。但是,由于数据源不统一导致了对同一个指标分析的结果不相同。为了解决该问题,Bell Inman提出了数据仓库的概念,其目的是为了分析和决策的需要,将相互分离的业务系统的数据源整合在一起,可以为领导和决策层提供分析和辅助决策。 3、国内企业对数据仓库建设认识的误区: 大家对数据仓库的认识是将业务系统的数据进行数据抽取、迁移和加载(ETL),将这些数据进行整合存放在一起,统一管理,需要什么样的分析就可提供什么样的分析,这就是数据仓库。这样做的结果是花了一年到两年的时间都无法将整个企业业务系统的数据整合在一起,花钱多、见效慢、风险大。一年后领导问起数据仓库项目时,回答往往是资金不足,人力不够,再投入一些资源、或者再延长半年的时间就会见到效果,但是往往半年过后还是仅仅可以看到十几张或者几十张报表。领导不满意,项目负责人压力也很大,无法交待。这时,项目经理或者项目负责人才意识到,项目有问题,但是谁也不敢说项目有问题,因为这样显然是自己当时的决策失误。怎么办?寻找咨询公司或者一些大的厂商,答案往往是数据仓库缺乏数据模型,应该考虑数据模型。如果建设时考虑到整个企业的数据模型,就可以建设成企业级的数据仓库(EDW)。什么是数据模型,就是满足整

银行数据仓库构建分析

如何构建银行数据仓库 数据仓库技术作为一项数据管理领域的新技术,其精髓在于针对联机分析处理(OLAP)提出了一种综合的解决方案,与以往很多技术不同的是,它主要是一种概念,在此概念指导下完成系统的构造。既没有可以直接购买到的现成产品,也没有具体的分析规和实现方法,也就是说没有成熟、可靠且被广泛接受的数据仓库标准。在以往关系数据库的设计和实现中,不仅有详细的理论推导,还有无数的设计实例,无论你使用的是什么公司的数据库产品、开发工具,只要按照规做,那么实现同一业务需求的方案都会很相似。而现有数据仓库的实现中,出现了MOLAP方案和ROLAP方案的区别,出现了形形色色的数据仓库建模工具、表现工具,而设计人员的个人经验和素质也会在其中扮演很重要的角色。 数据仓库技术的实现方式 目前在数据仓库技术的实际应用中主要包括如下几种具体实现方式。 1、在关系数据库上建立数据仓库(ROLAP) 2、在多维数据库上建立数据仓库(MOLAP)

MOLAP方案是以多维方式来组织数据,以多维方式来存储数据;ROLAP 方案则以二维关系表为核心表达多维概念,通过将多维结构划分为两类表:维表和事实表,使关系型结构能较好地适应多维数据的表示和存储。在多维数据模型的表达方面,多维矩阵比关系表更清晰且占用的存储更少,而通过关系表间的连接来查询数据的ROLAP系统,系统性能成为最大问题。MOLAP方案比ROLAP方案要简明,索引及数据聚合可以自动进行并自动管理,但同时丧失了一定的灵活性。ROLAP方案的实现较为复杂,但灵活性较好,用户可以动态定义统计和计算方式,另外能保护在已有关系数据库上的投资。 由于两种方案各有优劣,因此在实际应用中,往往将MOLAP和ROLAP 结合使用,即所谓的混合模型。利用关系数据库存储历史数据、细节数据或非数值型数据,发挥关系数据库技术成熟的优势,减少花费,而在多维数据库中存储当前数据和常用统计数据,以提高操作性能。 3、在原有关系库上建立逻辑上的数据仓库 由于目前正在运行的OLTP系统中已经积累了海量数据,如何从中提取出决策所需的有用信息就成为用户最迫切的需要。新建数据仓库固然能从功能、性能各方面给出一个完整的解决方案,但需要投入大量的人力、物力,并且数据仓库的建设和分析数据的积累需要一段时间,无法及时满足用户对信息分析的迫切需要。因此在筹建数据仓库的前期,可以采用一些合适的表现工具,在原有OLTP系统上建立起一个逻辑的数

数据仓库在我国企业的应用现状及实施策略分析

广西科学院学报 2006,22(4):375~377 Journal of GuangxiA cade m y of Sciences V ol .22,N o .4 N ove m ber 2006收稿日期:2006209212 作者简介:何朝红(19652),女,广西南宁人,硕士,主要从事供应链管理和物流信息化研究。 数据仓库在我国企业的应用现状及实施策略分析 On the Appl i ca ti on of Da t a W arehouses i n Ch i n ese En -terpr ises 何朝红 H E Chao 2hong (广西物资集团总公司,广西南宁 530022) (Guangx iM aterials Group Corp .,N ann ing ,Guangxi ,530022,Ch ina ) 摘要:分析数据仓库在我国企业中的应用现状。认为目前我国企业数据仓库的应用主要存在对数据仓库的概念理解不深,对项目的长期性、艰巨性认识不足,数据库系统中数据的积累不够,用户没有参与数据仓库建设的需求分析,项目实施过程中的管理混乱,具体实现中的技术问题尚未完善等问题。企业应从确定建立数据仓库的合适时机,选择切合实际的实施方法,取得最高管理层的支持和认可,确定基本目标、量化预期收益,选择正确的设计思路,选择合适的合作伙伴等6个方面应用数据仓库技术。关键词:数据仓库 应用 问题 策略 中图法分类号:T P 311113 文献标识码:A 文章编号:100227378(2006)0420375203 Abstract :T he app licati on of data w arehouses in Ch inese enterp rises is discussed .T he p roble m s in the app licati on are revealed as fo ll ow s .T he data w arehouse can not be fully understood .T he l ong ter m and hardness of the p roject runn ing are neglected .T here are less data accum ulated in the data w arehouse .T here is lack of users partici pating in the de m and analysis of the data w are 2house establishm ent ,and poor m anage m ent in the i m p le m entati on of the p ro ject .T he technical p roble m s have not been i m p roved in the operati on of the data w arehouse .T he relevant sugges 2ti ons are p resented .For the p roject to be supported ,it needs to choose a correct ti m e and a p rag 2m atic executi on w ay to construct a p ro ject ,set up an essential goal ,m easure the expecting bene 2fits ,and select a suitable partner . Key words :data w arehouse ,app licati on ,p roble m s ,strategy 近年来,计算机网络和数据库技术的迅速发展和广泛应用,使得企业管理进入了一个崭新的时代,企业的许多业务得到了联机事务处理(OL T P )信息系统的支持。然而,随着市场竞争的加剧,正确及时的决策成为企业生存和发展的重要环节。特别是随着数据库系统的逐日运行,产生了大量的业务数据,如何安全有效地存储和管理这些数据,并从大量繁杂的数据中获取其中有用的决策信息,为高层管理人员提供快速、准确和方便的决策支持,成为目前企业提高管理水平和竞争优势必须解决的问题。数据仓库(D ata W arehouse )技术的产生和发展,为这个问题的解决提供了有效的理论和方法指导。 数据仓库是20世纪90年代初出现的数据管理的 新技术,到20世纪90年代中期已在发达国家的许多行业中得到应用[1]。建立数据仓库的目的,就是把来自企业内部和外部的大量异构数据按辅助决策主题的要求进行加工、集成,为高层管理人员提供各种类型的、有效的数据分析,起到决策支持的作用。因此,数据仓库已经成为继Internet 之后的又一技术热点。 1 数据仓库在我国企业的应用现状 随着各种计算机技术,如数据模型、数据库技术和应用开发技术的不断发展,数据仓库技术也在不断完善,并在实际应用中发挥了越来越大的作用。据美国国际数据公司(I D C )调查,使用数据仓库技术的投资回报率(RO I )平均超过400%,平均回报时间 为2~3年;若从部门级数据仓库(也称“数据集市”)开始实施,则投资回报率平均超过500%[2]。 目前,在美国,30%到40%的公司已经或正在建

数据仓库分析系统整体设计方案

一、概述 二、四科室需求 1、风险科需求... 2、市场科需求... 3、业务管理科需求 4、计划资金科需求 三、需求分析 1、维表........................... 2、事实表......................... 3、事务——业务处理过程及业务术语 4、主键........................... 5、外键........................... 四、系统结构图及业务数据流图 1、系统结构图 2、数据流图 五、源数据表结构 1、BCS 系统..... 2、C ARDPOOL 系统 3、NAS 系统..... 4、BCS 系统报表. 六、生成表结构 七、码表结构 八、结果表结构 九、数据表创建方法 1、BCS 系统..... 2、C ARDPOOL 系统 3、NAS 系统..... 4、生成表......... 5、码表.......... 十、数据处理过程 1、目录结构 2、流程说明 一、问题及处理方法目录 3 13 14 15 23 23 23 23 24 24 25 25 26 27 27 34 36 37 39 43 50 51 51 57 58 58 62 68 68 68 80

、概述 Bill Inmon (数据仓库之父)在Building the Data Warehouse (John Wiley & Sons Inc., 1996)书中把数据仓库描述为一个“面向主题的、完整的、非易失的、不同时间的、用于 支持决策管理的数据集合”。 数据仓库是只用于制作报表的数据库。 对我们而言,数据仓库是某个“宽广”的数据仓储。它包括许多的主题领域。而一个数据集市,恰恰相反,它把眼睛盯在商业活动的某个非常有限的部分上。它往往涉及某个单独主题或单个类型的分析。 在日常工作中,IT人员经常听到这样的抱怨:“我要求的报表怎么还没出来?” 或者是“我要对XX 报表做些修改,怎么还没结果?”等等。 在IT飞速发展的最近几年里,银行信用卡部先后针对业务上了一些计算机系统。这些系统的特点是:信息量规模小、数据经常实时更新、适用于业务人员快速录入数据、使用模式相对来说是可以预测的、模式很复杂、业务流程难以更改、数据在线保存的时间较短及各系统之间缺乏必要的联系等。这样的系统被称之为OLTP系统。OLTP系统的这些特点也就决定了有如此抱怨。 如何解决这些问题呢?我们首先想到的是:把数据集中、完整地存储在中心数据库中。 所有的业务处理在中心数据库上进行。所有的报表工作脱离数据库。这听起来难道不是有点像一个数据仓库吗?我们为什么不在OLTP的业务系统数据库的基础上生成报表呢?答 案很简单:因为报表经常需要大量的、长时间的数据做依据,然后经过大量的运算,才能得出你想要的结论。这对业务系统的正常运转影响很大,以至于业务系统无法正常运转。 当然,不是什么时候都需要一个数据仓库的。正如数据仓库的定义:是用于支持决策管理的数据集合。 中国银行北京分行从1986年6月1日发行第一张人民币长城卡到现在拥有将近20万的 持卡人。从过去手工处理业务到现在拥有几个OLTP业务系统。信用卡业务有了飞速的发 展。但也应看到信用卡市场的激烈竞争。如何给决策者及时提供决策支持信息,是在激烈的市场竞争中立于不败之地的关键。

建设数据仓库的八个步骤

大数据技术部 建设数据仓库的八个步骤2017年04月25日编制

建设数据仓库的八个步骤 摘要:建立数据仓库是一个解决企业问题的过程,业务人员往往不懂如何建立和使用数据仓库,发挥其决策支持的作用;信息部门的人员往往又不懂业务,不知道应该建立哪些决策主题。 关键词:数据仓库元数据 建设数据仓库 建立数据仓库是一个解决企业问题的过程,业务人员往往不懂如何建立和使用数据仓库,发挥其决策支持的作用;信息部门的人员往往又不懂业务,不知道应该建立哪些决策主题,从数据源中抽取哪些数据。因此数据仓库的项目小组应该由业务人员和信息部门的人员共同组成,双方需要相互沟通,协作开发数据仓库。 开发数据仓库的过程包括以下几个步骤。 1.系统分析,确定主题 建立数据仓库的第一个步骤就是通过与业务部门的充分交流,了解建立数据仓库所要解决的问题的真正含义,确定各个主题下的查询分析要求。 业务人员往往会罗列出很多想解决的问题,信息部门的人员应该对这些问题进行分类汇总,确定数据仓库所实现的业务功能。一旦确定问题以后,信息部门的人员还需要确定一下几个因素: ·操作出现的频率,即业务部门每隔多长时间做一次查询分析。 ·在系统中需要保存多久的数据,是一年、两年还是五年、十年。 ·用户查询数据的主要方式,如在时间维度上是按照自然年,还是财政年。 ·用户所能接受的响应时间是多长、是几秒钟,还是几小时。 由于双方在理解上的差异,确定问题和了解问题可能是一个需要多次往复的过程,信息部门的人员可能需要做一些原型演示给业务部门的人员看,以最终确定系统将要实现的功能确实是业务部门所需要的。

2.选择满足数据仓库系统要求的软件平台 在数据仓库所要解决的问题确定后,第二个步骤就是选择合适的软件平台,包括数据库、建模工具、分析工具等。这里有许多因素要考虑,如系统对数据量、响应时间、分析功能的要求等,以下是一些公认的选择标准: ·厂商的背景和支持能力,能否提供全方位的技术支持和咨询服务。 ·数据库对大数据量(TB级)的支持能力。 ·数据库是否支持并行操作。 ·能否提供数据仓库的建模工具,是否支持对元数据的管理。 ·能否提供支持大数据量的数据加载、转换、传输工具(ETT)。 ·能否提供完整的决策支持工具集,满足数据仓库中各类用户的需要。 3.建立数据仓库的逻辑模型 具体步骤如下: (1)确定建立数据仓库逻辑模型的基本方法。 (2)基于主题视图,把主题视图中的数据定义转到逻辑数据模型中。 (3)识别主题之间的关系。 (4)分解多对多的关系。 (5)用范式理论检验逻辑数据模型。

数据仓库项目需求分析

数据仓库项目需求分析 This manuscript was revised by the office on December 10, 2020.

数据仓库项目需求分析 一、简述 数据仓库项目是一个复杂的过程,项目的开发涉及到多方面的问题和风险:技术风险、数据质量问题、项目管理问题,但最项目中中最隐蔽、最容易忽略、最难控制的一环,就是需求的调研和分析。需求分析不深入、不准确的结果就是系统完成后没有人愿意使用它。因此我们要采取有效的措施的来避免这种情况。 二、需求分析的原则 1、让用户参与,尽力让用户的高层参与,双方要紧密配合 2、要迅速、全面的理解用户的业务及工作流程 3、培训,要不停的向用户灌输数据仓库与传统业务系统的不同做法 4、不要求完美,而要求实用,应用将是螺旋上升的。 5、项目有整体规划,调研可以全面,但一定要向用户界定好各阶段的范 围。 备注: 对我们来讲,我们不但要了解用户使用那些报表来完成那些任务,同时我们还要了解业务系统对用户需求的支持,同时,由于我们在这一行业已经积累了一些经验,也了解我们可以为用户解决那些问题,因此,从某种角度来讲,我们会比客户更多的理解系统的功能。所以在需求调研的时候,一定要提出自己的见解,哪怕是错误的也不要紧;另外,需求会因为业务变化,因此,与其等用户的业务变化再跟着改,不如主动了解业务,建议用户按照自己的想法做。 另外,由于用户对数据仓库的概念和认识是非常模糊的,他们不清楚数据仓库到底能实现什么,能解决什么问题。因此,我们经常会发现,我们完成了系统,用户却只用系统1%的功能,这就需要我们在对用户的培训方面和直观教育方面多下一点功夫。我们应该准备一些以前做过的相关案例,告诉用户当时设计这个系统是为了解决什么问题,以及这个问题的解决办法。

数据仓库系统设计文档

数据仓库系统总体设计 摘要:本文档为XX通信公司网上通信记录查询平台设计说明书,为XX通信公司网上通信记录查询平台详细设计的之要依据。本文档的主要阅读对象为XX通信公司网上通信记录查询平台的详细设计人员。经过需求分析调查,确定了数据仓库系统总体定位和系统功能需求。现根据需求分析规定和局具体情况,确定数据仓库整体方案,以指导数据仓库系统研究、开发、实现。 关键字:指标;主题;数据仓库;联机分析;数据挖掘;决策支持 1 概述 1.1 背景 本软件全称为XX通信公司网上通信记录查询平台。 1.2 术语定义 DW:数据仓库 DC:数据中心 OLTP:在线事务处理 OLAP:在线分析处理 BI:商业智能 DSS:决策支持系统 SOA:面向服务的架构 EA:企业架构 ETL:数据抽取、转换、加载 Statistical Parameter:指标 Subject:主题 DataMart:数据集市 MetaData:元数据 OLTP(On-LineTransactionProcessing):联机事务处理 DSS:决策支持系统 AS:应用服务器

WebServer :Web服务器 1.3参考资料 数据仓库课程课件林友芳 概要设计说明书模板林友芳 《实用软件工程》清华大学出版社 2 系统设计 从充分发挥系统作为“数据库,信息库,思想库,智囊库”的作用,向用户提供“快、精、准”的通讯记录查询服务的需要出发,采用当今数据库领域成熟稳定的数据仓库、决策分析等技术,在高效的网络平台上建设提供一个“决策数据管理与分析中心”的基本解决方案。 系统采用多层体系结构,建立一个良好开放性的数据仓库系统环境,适应不断增加和变化的业务需求。多层体系结构通过引入中间层组件,扩大了传统的客户/服务器和两层计算模式。多层结构可由以下三类分层来定义:前端的客户层,负责提供可移植的表达逻辑;中间的应用层,允许用户通过将其与实际应用隔离而共享和控制业务逻辑;后端的数据管理与服务层,提供对专门服务(例如数据库服务器)的访问。 结构化、层次化、模块化。采用面向对象技术,使系统高度结构化、模块化、层次化,整个系统由接口定义良好的多个模块组成,每个模块都有详细的功能说明和设计文稿,每个模块完成相对独立的功能,模块之间的接口定义规范,使模块功能的变化相对独立,不影响整个系统的功能和结构,便于系统升级,维护。 具有良好的平台移植性。选用支持多种操作平台的数据库服务器、应用服务器、WEB 服务器等服务器软件系统,选用具有良好平台移植性的B/S和C/S模式下的开发语言开发应用程序和应用中间件,提高应用系统的平台移植性。 以最简单的方式实现复杂的功能。为提高系统的稳定性和可读性,可维护性,尽量采用简洁易懂的方式实现系统功能,不追求复杂、深奥的算法。

建设数据仓库的八个步骤

建设数据仓库的八个步骤

————————————————————————————————作者: ————————————————————————————————日期: ?

大数据技术部 建设数据仓库的八个步骤 ???? 2017年04月25日编制

建设数据仓库的八个步骤 摘要: 建立数据仓库是一个解决企业问题的过程,业务人员往往不懂如何建立和使用数据仓库,发挥其决策支持的作用;信息部门的人员往往又不懂业务,不知道应该建立哪些决策主题。?关键词: 数据仓库元数据 建设数据仓库 建立数据仓库是一个解决企业问题的过程,业务人员往往不懂如何建立和使用数据仓库,发挥其决策支持的作用;信息部门的人员往往又不懂业务,不知道应该建立哪些决策主题,从数据源中抽取哪些数据。因此数据仓库的项目小组应该由业务人员和信息部门的人员共同组成,双方需要相互沟通,协作开发数据仓库。 ?开发数据仓库的过程包括以下几个步骤。 1.系统分析,确定主题 ?建立数据仓库的第一个步骤就是通过与业务部门的充分交流,了解建立数据仓库所要解决的问题的真正含义,确定各个主题下的查询分析要求。 ?业务人员往往会罗列出很多想解决的问题,信息部门的人员应该对这些问题进行分类汇总,确定数据仓库所实现的业务功能。一旦确定问题以后,信息部门的人员还需要确定一下几个因素: ?·操作出现的频率,即业务部门每隔多长时间做一次查询分析。 ?·在系统中需要保存多久的数据,是一年、两年还是五年、十年。 ·用户查询数据的主要方式,如在时间维度上是按照自然年,还是财政年。 ?·用户所能接受的响应时间是多长、是几秒钟,还是几小时。 由于双方在理解上的差异,确定问题和了解问题可能是一个需要多次往复的过程,信息部门的人员可能需要做一些原型演示给业务部门的人员看,以最终确定系统将要实现的功能确实是业务部门所需要的。 ? 2.选择满足数据仓库系统要求的软件平台

数据仓库分析系统整体设计开发可行性方案

数据仓库分析系统整体设计开发可行 性方案

目录 一、概述 (4) 二、四科室需求 (6) 1、风险科需求 (6) 2、市场科需求 (21) 3、业务管理科需求 (23) 4、计划资金科需求 (24) 三、需求分析 (39) 1、维表 (39) 2、事实表 (39) 3、事务——业务处理过程及业务术语 (39) 4、主键 (40) 5、外键 (40) 四、系统结构图及业务数据流图 (41) 1、系统结构图 (41) 2、数据流图 (42) 五、源数据表结构 (44) 1、BCS系统 (44) 2、C ARDPOOL系统 (53) 3、NAS系统 (56) 4、BCS系统报表 (58) 六、生成表结构 (60)

七、码表结构 (65) 八、结果表结构 (75) 九、数据表创建方法 (76) 1、BCS系统 (76) 2、C ARDPOOL系统 (84) 3、NAS系统 (86) 4、生成表 (87) 5、码表 (92) 十、数据处理过程 (101) 1、目录结构 (101) 2、流程说明 (102) 十一、问题及处理方法 (119)

一、概述 Bill Inmon(数据仓库之父)在Building the Data Warehouse (John Wiley & Sons Inc., 1996)书中把数据仓库描述为一个“面向主题的、完整的、非易失的、不同时间的、用于支持决策管理的数据集合”。 数据仓库是只用于制作报表的数据库。 对我们而言,数据仓库是某个“宽广”的数据仓储。它包括许多的主题领域。而一个数据集市,恰恰相反,它把眼睛盯在商业活动的某个非常有限的部分上。它往往涉及某个单独主题或单个类型的分析。 在日常工作中,IT人员经常听到这样的抱怨:“我要求的报表怎么还没出来?”或者是“我要对XX报表做些修改,怎么还没结果?”等等。 在IT飞速发展的最近几年里,银行信用卡部先后针对业务上了一些计算机系统。这些系统的特点是:信息量规模小、数据经常实时更新、适用于业务人员快速录入数据、使用模式相对来说是可以预测的、模式很复杂、业务流程难以更改、数据在线保存的时间较短及各系统之间缺乏必要的联系等。这样的系统被称之为OLTP系统。OLTP系统的这些特点也就决定了有如此抱怨。 如何解决这些问题呢?我们首先想到的是:把数据集中、完整地存储在中心数据库中。所有的业务处理在中心数据库上进行。所有的报表工作脱离数据库。这听起来难道不是有点像一个数据仓库吗?我们为什么不在OLTP的业务系统数据库的基础上生成报表呢?答案很简单:因为报表经常需要大量的、长时间的数据做依据,然后经过大量的运算,才能得出你想要的结论。这对业务系统的正常运转影响很大,以至于业务系统无法正常运转。

怎样做数据仓库需求分析

怎样做数据仓库需求分析 冷鹏 2002年11月 数据仓库之路原创资料

一、概述 (1) 二、需求分析的重要性 (1) 三、需求分析初级阶段 (2) 3.1需求分析成员班子的确立 (2) 3.2用户培训 (2) 3.3数据仓库应用案例培训 (3) 四、需求分析的过程 (3) 4.1访问项目经理 (4) 4.1.1 关于数据的问题 (4) 4.1.2 关于用户的问题 (4) 4.1.3 系统评估 (5) 4.2访问客户高层管理部门 (5) 4.2.1 关于用户概况的问题 (5) 4.2.2 关于系统看法的问题 (5) 4.3访问用户 (6) 4.3.1 关于当前信息来源的问题 (6) 4.3.2 关于用户概况的问题 (7) 4.3.3 关于系统看法的问题 (7) 4.3.4 系统评估 (7) 4.4访问信息技术人员 (7) 4.4.1 关于当前环境的问题 (8) 4.4.2 关于系统看法的问题 (8) 4.4.3 系统评估 (8) 五、需求分析文档 (9)

一、概述 记得前些日子我曾经整理过一篇关于数据仓库需求分析的文章,那时网站论坛讨论数据仓库需求分析很是热烈,大家的发帖水平也很高,所以我就整理了一篇文档出来,后来发现点击率很高,我想大家是很关心怎么做数据仓库需求分析这个问题的。 下面我就自己的做项目时的一些理解和参照William A.Giovinazzo[美]著的《面向对象数据仓库设计》一书总结了下文,由于时间仓促、和个人观点的片面性,有很多不当之处请大家批评指出,也希望大家和我一起总结出更系统、更完整、更科学的《数据仓库需求分析方法》来指导我们数据仓库项目这个需求分析阶段的工作。 二、需求分析的重要性 需求分析的成败直接影响到数据仓库的成败实施。对于一个严格完整的数据仓库项目来说,需求分析应该属于数据仓库项目的第二个过程,第一阶段属于数据仓库项目定义阶段,对项目范围、项目评估、可行性研究分析和投资回报等相关进行定义,也是一个不容忽视的阶段。 我们首先来看看数据仓库失败的几个典型表现形式(atiger总结): 1) 项目超过预算 2) 没有在规定的时间内完成 3) 没有实现要求的功能 4) 用户不满意 5) 系统性能不满足要求

数据仓库建设方案-2018-

数据仓库建设方案-2018-3-28

数据仓库建设 商务智能(Business Intelligence)用于支持制定业务决策的技能、流程、技术、应用和实践。核心是通过数据提取、整理、分析,最终通过分析结果制定有关策略、规划,帮助企业了解新的趋势、抓住新的市场机会、发现潜在的威胁,达到资源的合理配置,节约成本提高效益。数据仓库是商业智能的基础,它为OLAP、数据挖掘提供分析和决策支持。 一、数据仓库概念 1.数据仓库定义 是一个面向主题的、集成的、相对稳定的、反映有有历史变化的数据集合,用于支持管理决策。具有以下特点: ●详细交易及相关业务数据的集合 ●包含必要的内部与外部信息 ●来自于多个数据源、业务操作系统 ●保存一定的时间周期 ●按照企业内业务规则决定存储模型 2.建设的必要性 目前大多数信息系统由于建设时间、建设方、各阶段需求不同,会出现一系列问题:缺乏整体规则、信息缺乏完整性、缺乏统一的信息管理标

准和规范、信息孤岛、不具备大容量的数据管理和分析能力。 3.价值 ●提高管理决策的科学性和管理效率 ●信息的整合,可推动现在有信息管理体系的重构 ●打通信息孤岛全局共享,降低数据获取的难度 ●逐渐取代各类业务管理报表系统 ●运用历史数据发现规律 二、数据仓库建设 1.业务需求定义 梳理出所有业务过程,分析业务内容提取需求,对其相关的数据进行探查,并对各系统核心业务人员访谈,准确的了解业务需求情况,近期调研 2.技术体系结构 生命周期图

技术架构图:

3.数据仓库数据建模 数据模型是抽象描述现实世界的一种方法,是通过抽象的实体及实体之间的联系来表示现实世界中事务的相互关系的一种映射,数据仓库模型是数据模型中针对特定的数据仓库应用系统的特定模型。数据仓库建模方法种类较多,常见的三种是范式建模、维度建模、实体建模,每种方法本质上都是从不同的角度解决业务中的问题。 关于数据仓库建模单独用一篇来详细介绍,这儿仅对维度建模做基本的介绍,维度建模由数据仓库领域另一位大师Ralph Kimall所倡导,是数据仓库工程领域最流行的数仓建模经典。维度建模以分析决策的需求出发构建模型,构建的数据模型为分析需求服务,因此它重点解决用户如何更快速完成分析需求,同时还有较好的大规模复杂查询的响应性能。 1.维度模型是什么 维度建模将客观世界划分为度量和上下文。度量是由业务过程和支持它们的业务源系统来捕捉的,常常以数据值形式出现,将其称作“事实”,事实由大量上下文包围着,这些文本形式的上下文被直观地分割成多个独立的逻辑块,我们称其为“维”。维度描述了度量上下文的5W(who、what、when、where、why)信息,以及这些上下文是如何作用的。 企业的每一个业务过程都可以用维度模型来描述,维度模型由一系列含有数值量度量的事实表组成,事实表中的数值则被一系列带有文本属性的维度表环绕。

数据仓库需求分析引言

数据仓库需求分析引言 This manuscript was revised by the office on December 10, 2020.

数据仓库项目需求分析 一、简述 数据仓库项目是一个复杂的过程,项目的开发涉及到多方面的问题和风险:技术风险、数据质量问题、项目管理问题,但最项目中中最隐蔽、最容易忽略、最难控制的一环,就是需求的调研和分析。需求分析不深入、不准确的结果就是系统完成后没有人愿意使用它。因此我们要采取有效的措施的来避免这种情况。 二、需求分析的原则 1、让用户参与,尽力让用户的高层参与,双方要紧密配合 2、要迅速、全面的理解用户的业务及工作流程 3、培训,要不停的向用户灌输数据仓库与传统业务系统的不同做法 4、不要求完美,而要求实用,应用将是螺旋上升的。 5、项目有整体规划,调研可以全面,但一定要向用户界定好各阶段的范 围。 备注: 对我们来讲,我们不但要了解用户使用那些报表来完成那些任务,同时我们还要了解业务系统对用户需求的支持,同时,由于我们在这一行业已经积累了一些经验,也了解我们可以为用户解决那些问题,因此,从某种角度来讲,我们会比客户更多的理解系统的功能。所以在需求调研的时候,一定要提出自己的见解,哪怕是错误的也不要紧;另外,需求会因为业务变化,因此,与其等用户的业务变化再跟着改,不如主动了解业务,建议用户按照自己的想法做。 另外,由于用户对数据仓库的概念和认识是非常模糊的,他们不清楚数据仓库到底能实现什么,能解决什么问题。因此,我们经常会发现,我们完成了系统,用户却只用系统1%的功能,这就需要我们在对用户的培训方面和直观教育方面多下一点功夫。我们应该准备一些以前做过的相关案例,告诉用户当时设计这个系统是为了解决什么问题,以及这个问题的解决办法。

数据仓库需求分析引言

数据仓库项目需求分析 一、简述 数据仓库项目是一个复杂的过程,项目的开发涉及到多方面的问题和风险:技术风险、数据质量问题、项目管理问题,但最项目中中最隐蔽、最容易忽略、最难控制的一环,就是需求的调研和分析。需求分析不深入、不准确的结果就是系统完成后没有人愿意使用它。因此我们要采取有效的措施的来避免这种情况。 二、需求分析的原则 1、让用户参与,尽力让用户的高层参与,双方要紧密配合 2、要迅速、全面的理解用户的业务及工作流程 3、培训,要不停的向用户灌输数据仓库与传统业务系统的不同做法 4、不要求完美,而要求实用,应用将是螺旋上升的。 5、项目有整体规划,调研可以全面,但一定要向用户界定好各阶段的范围。 备注: 对我们来讲,我们不但要了解用户使用那些报表来完成那些任务,同时我们还要了解业务系统对用户需求的支持,同时,由于我们在这一行业已经积累了一些经验,也了解我们可以为用户解决那些问题,因此,从某种角度来讲,我们会比客户更多的理解系统的功能。所以在需求调研的时候,一定要提出自己的见解,哪怕是错误的也不要紧;另外,需求会因为业务变化,因此,与其等用户的业务变化再跟着改,不如主动了解业务,建议用户按照自己的想法做。 另外,由于用户对数据仓库的概念和认识是非常模糊的,他们不清楚数据仓库到底能实现什么,能解决什么问题。因此,我们经常会发现,我们完成了系统,用户却只用系统1%的功能,这就需要我们在对用户的培训方面和直观教育方面多下一点功夫。我们应该准备一些以前做过的相关案例,告诉用户当时设计这个系统是为了解决什么问题,以及这个问题的解决办法。 三、需求分析方法 要了解听众对演讲内容的看法、员工对项目组的看法、员工对公司的看法、用户对系统的看法,最好的途径就是设置调查表。实际上,在生活中,向长者请教、拜访用户、参加培

数据仓库的基本架构

数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。其实数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放给外部应用,这也是为什么叫“仓库”,而不叫“工厂”的原因。因此数据仓库的基本架构主要包含的是数据流入流出的过程,可以分为三层——源数据、数据仓库、数据应用: 从图中可以看出数据仓库的数据来源于不同的源数据,并提供多样的数据应用,数据自上而下流入数据仓库后向上层开放应用,而数据仓库只是中间集成化数据管理的一个平台。 数据仓库从各数据源获取数据及在数据仓库内的数据转换和流动都可以认为是ETL(抽取Extra, 转化Transfer, 装载Load)的过程,ETL是数据仓库的流水线,也可以认为是数据仓库的血液,它维系着数据仓库中数据的新陈代谢,而数据仓库日常的管理和维护工作的大部分精力就是保持ETL 的正常和稳定。 下面主要简单介绍下数据仓库架构中的各个模块,当然这里所介绍的数据仓库主要是指网站数据仓库。 数据仓库的数据来源 其实之前的一篇文章已经介绍过数据仓库各种源数据的类型——数据仓库的源数据类型,所以这里不再详细介绍。 对于网站数据仓库而言,点击流日志是一块主要的数据来源,它是网站分析的基础数据;当然网站的数据库数据也并不可少,其记录这网站运营的数据及各种用户操作的结果,对于分析网站Outcome这类数据更加精准;其他是网站内外部可能产生的文档及其它各类对于公司决策有用的数据。

数据仓库的数据存储 源数据通过ETL的日常任务调度导出,并经过转换后以特性的形式存 入数据仓库。其实这个过程一直有很大的争议,就是到底数据仓库需不需要储存细节数据,一方的观点是数据仓库面向分析,所以只要存储特定需求的多维分析模型;另一方的观点是数据仓库先要建立和维护细节数据,再根据需求聚合和处理细节数据生成特定的分析模型。我比较偏向后面一个观点:数据仓库并不需要储存所有的原始数据,但数据仓库需要储存细节数据,并 且导入的数据必须经过整理和转换使其面向主题。简单地解释下: (1).为什么不需要所有原始数据?数据仓库面向分析处理,但是某些源 数据对于分析而言没有价值或者其可能产生的价值远低于储存这些数据所 需要的数据仓库的实现和性能上的成本。比如我们知道用户的省份、城市足够,至于用户究竟住哪里可能只是物流商关心的事,或者用户在博客的评论内容可能只是文本挖掘会有需要,但将这些冗长的评论文本存在数据仓库就得不偿失; (2).为什么要存细节数据?细节数据是必需的,数据仓库的分析需求会 时刻变化,而有了细节数据就可以做到以不变应万变,但如果我们只存储根据某些需求搭建起来的数据模型,那么显然对于频繁变动的需求会手足无措; (3).为什么要面向主题?面向主题是数据仓库的第一特性,主要是指合 理地组织数据以方面实现分析。对于源数据而言,其数据组织形式是多样的,像点击流的数据格式是未经优化的,前台数据库的数据是基于OLTP操作组织优化的,这些可能都不适合分析,而整理成面向主题的组织形式才是真正地利于分析的,比如将点击流日志整理成页面(Page)、访问(Visit或Session)、用户(Visitor)三个主题,这样可以明显提升分析的效率。 数据仓库基于维护细节数据的基础上在对数据进行处理,使其真正地能够应用于分析。主要包括三个方面: 数据的聚合 这里的聚合数据指的是基于特定需求的简单聚合(基于多维数据的聚合体现在多维数据模型中),简单聚合可以是网站的总Pageviews、Visits、

相关主题