搜档网
当前位置:搜档网 › 企业数据仓库概念模型设计

企业数据仓库概念模型设计

企业数据仓库概念模型设计
企业数据仓库概念模型设计

数据仓库模型的设计

2.5数据仓库模型的设计 数据仓库模型的设计大体上可以分为以下三个层面的设计151: .概念模型设计; .逻辑模型设计; .物理模型设计; 下面就从这三个层面分别介绍数据仓库模型的设计。 2.5.1概念模型设计 进行概念模型设计所要完成的工作是: <1>界定系统边界 <2>确定主要的主题域及其内容 概念模型设计的成果是,在原有的数据库的基础上建立了一个较为稳固的概念模型。因为数据仓库是对原有数据库系统中的数据进行集成和重组而形成的数据集合,所以数据仓库的概念模型设计,首先要对原有数据库系统加以分析理解,看在原有的数据库系统中“有什么”、“怎样组织的”和“如何分布的”等,然后再来考虑应当如何建立数据仓库系统的概念模型。一方面,通过原有的数据库的设计文档以及在数据字典中的数据库关系模式,可以对企业现有的数据库中的内容有一个完整而清晰的认识;另一方面,数据仓库的概念模型是面向企业全局建立的,它为集成来自各个面向应用的数据库的数据提供了统一的概念视图。 概念模型的设计是在较高的抽象层次上的设计,因此建立概念模型时不用考虑具体技术条件的限制。 1.界定系统的边界 数据仓库是面向决策分析的数据库,我们无法在数据仓库设计的最初就得到详细而明确的需求,但是一些基本的方向性的需求还是摆在了设计人员的面前: . 要做的决策类型有哪些? . 决策者感兴趣的是什么问题? . 这些问题需要什么样的信息? . 要得到这些信息需要包含原有数据库系统的哪些部分的数据? 这样,我们可以划定一个当前的大致的系统边界,集中精力进行最需要的部分的开发。因而,从某种意义上讲,界定系统边界的工作也可以看作是数据仓库系统设计的需求分析,因为它将决策者的数据分析的需求用系统边界的定义形式反映出来。 2,确定主要的主题域 在这一步中,要确定系统所包含的主题域,然后对每个主题域的内

数据仓库物理模型设计

数据仓库物理模型设计 数据仓库的物理模型就是数据仓库逻辑模型在物理系统中的实现模式。其中包括了逻辑模型中各种实体表的具体化,例如表的数据结构类型、索引策略、数据存放位置和数据存储分配等。在进行物理模型的设计实现时,所考虑的因素有:I/O存取时间、空间利用率及维护的代价。 为确定数据仓库的物理模型,设计人员必须做这样几方面工作:首先要全面了解所选用的数据库管理系统,特别是存储结构和存取方法;其次了解数据环境、数据的使用频率、使用方式、数据规模及响应时间要求等,这些都是对时间和空间效率进行平衡和优化的重要依据;最后还需要了解外部存储设备的特征。只有这样才能在数据的存储需求与外部存储设备条件两者之间获得平衡。 1 设计存储结构 在物理设计时,常常要按数据的重要性、使用频率及对反应时间的要求进行分类,并将不同类型的数据分别存储在不同的存储设备中。重要性高、经常存取并对反应时间要求高的数据存放在高速存储设备上;存取频率低或对存取响应时间要求低的数据则可以存放在低速存储设备上。另外,在设计时还要考虑数据在特定存储介质上的布局。在设计数据的布局时要注意遵循以下原则。 l 不要把经常需要连接的几张表放在同一存储设备上,这样可以利用存储设备的并行操作功能加快数据查询的速度。 l 如果几台服务器之间的连接会造成严重的网络业务量的问题,则要考虑服务器复制表格,因为不同服务器之间的数据连接会给网络带来沉重的数据传输负担。 l 考虑把整个企业共享的细节数据放在主机或其他集中式服务器上,提高这些共享数据的使用速度。 l 不要把表格和它们的索引放在同一设备上。一般可以将索引存放在高速存储设备上,而表格则存放在一般存储设备上,以加快数据的查询速度。 在对服务器进行处理时往往要进行大量的等待磁盘数据的工作,此时,可以在系统中使用RAID(Redundant Array of Inexpensive Disk,廉价冗余磁盘阵列)。 2 设计索引策略 数据仓库的数据量很大,因而需要对数据的存取路径进行仔细地设计和选择。由于数据仓库的数据一般很少更新,所以可以设计索引结构来提高数据存取效率。在数据仓库中,设计人员可以考虑对各个数据存储建立专用的索引和复杂的索引,以获取较高的存取效率,虽然建立它们需要付出一定的代价,但建立后一般不需要过多的维护。 数据仓库中的表通常要比联机事务处理系统(OLTP)中的表建立更多的索引,表中应用的最大索引数应与表格的规模成正比。数据仓库是个只读的环境,建立索引可以取得灵活性,对性能极为有利。但是表若有很多索引,那么数据加载时间就会延长,因此索引的建立需要进行综合的考虑。在建立索引时,可以按照索引使用的频率由高到低逐步添加,直到某一索引加入后,使数据加载或重组表的时间过长时,就结束索引的添加。 最初,一般都是按主关键字和大多数外部关键字建立索引,通常不要添加很多的其他索引。在表建立大量的索引后,对表进行分析等具体使用时,可能需要许多索引,这会导致表的维护时间也随之增加。如果从主关键字和外部关键字着手建立索引,并按照需要添加其他索引,就会避免首先建立大量的索引带来的后果。如果表格过大,而且需要另外增加索引,那么可以将表进行分割处理。如果一个表中所有用到的列都在索引文件中,就不必访问事实表,只要访问索引就可以达到访问数据的目的,以此来减少I/O操作。如果表太大,并且经常要对它进行长时间的扫描,那么就要考虑添加一张概括表以减少数据的扫描任务。 3 设计存储策略

某某银行数据仓库建设项目方案说明

XX 银行 EDW/ 数据仓库项目方案 目录 第一章系统总体架构 (5) 1.1总体架构设计概述 (5) 1.1.1 总体架构的设计框架 (5) 1.1.2总体架构的设计原则 (6) 1.1.3总体架构的设计特点 (7) 1.2 EDW执行架构 (7) 1.2.1执行架构概述 (8) 1.2.2执行架构设计原则 (8) 1.2.3执行架构框架 (9) 1.3 EDW逻辑架构............................................ 1 8

1.3.1逻辑架构框架.......................................... 1 8 1.3.2数据处理流程......................................... 2 7 1.4 EDW运维架构............................................ 2 7 1.4.1 运维架构概述 (27) 1.4.2 运维架构的逻辑框架 (29) 1.5 EDW数据架构............................................ 3 6 1.5.1数据架构设计原则...................................... 3 6 1.5.2数据架构分层设计....................................... 3 8 1.6 EDW应用架构............................................. 4 1 1.6.1应用架构设计原则....................................... 4 1 1.6.2数据服务............................................... 4 2 1.6.3 应用服务 (43) 第二章ETL体系建设 ........................................... 4 4 2.1 ETL架构概述.............................................. 4 4 2.2 ETL设计方案.............................................. 4 6 2.3 ETL关键设计环节......................................... 4 6 2.3.1 接口层设计策略 (46)

数据仓库的数据模型

业务驱动 任何需求均来源于业务,业务决定了需求,需求分析的正确与否是关系到项目成败的关键所在,从任何角度都可以说项目是由业务驱动的所以数据仓库项目也是由业务所驱动的. 但是数据仓库不同于日常的信息系统开发,除了遵循其他系统开发的需求,分析,设计,测试等通常的软件声明周期之外;他还涉及到企业信息数据的集成,大容量数据的阶段处理和分层存储,数据仓库的模式选择等等,因此数据仓库的物理模型异常重要,这也是关系到数据仓库项目成败的关键. 数据仓库的结构总的来说是采用了三级数据模型的方式: 概念模型: 也就是业务模型,由企业决策者,商务领域知识专家和IT专家共同企业级地跨领域业务系统需求分析的结果. 逻辑模型:用来构建数据仓库的数据库逻辑模型。根据分析系统的实际需求决策构建数据库逻辑关系模型,定义数据库物体结构及其关系。他关联着数据仓库的逻辑模型和物理模型这两头. 物理模型:构建数据仓库的物理分布模型,主要包含数据仓库的软硬件配置,资源情况以及数据仓库模式。 如上图所示,在数据仓库项目中,物理模型设计和业务模型设计象两个轮子一样有力的支撑着数据仓库的实施,两者并行不悖,缺一不可.实际上,我有意的扩大了物理模型和业务模型的内涵和外延.在这里物理模型不仅仅是数据的存储,而且也包含了数据仓库项目实施的方法论,资源,以及软硬件选型等等;而业务模型不仅仅是主题模型的确立,也包含了企业的发展战略,行业模本等等. 一个优秀的项目必定会兼顾业务需求和行业的标准两个方面,业务需求即包括用户提出的实际需求,也要客观分析它隐含的更深层次的需求,但是往往用户的需求是不明确的,需要加以提炼甚至在商务知识专家引导下加以引导升华,和用户一起进行需求分析工作;不能满足用户的需求,项目也就失去原本的意义了. 物理模型就像大厦的基础架构,就是通用的业界标准,无论是一座摩天大厦也好,还是茅草房也好,在架构师的眼里,他只是一所建筑,地基->层层建筑->封顶,这样的工序一样也不能少,关系到住户的安全,房屋的建筑质量也必须得以保证,唯一的区别是建筑的材料,地基是采用钢筋水泥还是石头,墙壁采用木质还是钢筋水泥或是砖头;当然材料和建筑细节还是会有区别的,视用户给出的成本而定;还有不可忽视的一点是,数据仓库的数据从几百GB到几十TB不等,即使支撑这些数据的RDBMS无论有多么强大,仍不可避免的要考虑到数据库的物理设计. 接下来,将详细阐述数据仓库概念模型(业务模型),逻辑模型,物理模型的意义. 概念模型设计 进行概念模型设计所要完成的工作是: 界定系统边界 确定主要的主题域及其内容

数据仓库安全模型分析

数据仓库安全模型分析 摘要:对数据仓库安全模型进行了分析,讨论了现有的数据仓库安全模型,并对数据仓库安全模型的发展方向进行了展望。关键词:数据仓库数据仓库安全安全模型 数据仓库是在以事务处理为主要任务的数据库基础上发展起来的,但是它与数据库有着根本的不同。数据仓库的主要特征是面向主题的、集成的、与时间相关的、不可修改的数据集合[1]。数据仓库是一种决策支持系统,它主要是对企业决策提供强有力的支持,因此它的安全性更加重要。因为数据仓库中数据的丢失将损害企业的决策,所以数据仓库的安全性相对于数据库来说更为重要。 近几年来,虽然对数据仓库的研究较多,但是控制对数据仓库的访问却是一个正在发展的技术领域,对数据仓库的安全控制方面的研究仍旧涉及很少。对数据仓库的安全控制和对于传统的操作型数据库的安全控制是不同的。数据仓库的控制有着更高的复杂性,原因主要在于数据仓库的建立目的与限制对数据的访问是矛盾的;数据仓库中存在着不同粒度的数据;数据仓库中的数据是以多维的方式存在的。这些因素决定了数据仓库安全的研究是一个复杂的领域。目前对于数据仓库安全性的研究还比较少,国内还处于起步阶段,但是它却有着极其重要的现实意义。本文主要是通过对几个数据仓库安全模型的研究,对数据仓库安全性目前研究的主要内容、现状和发展趋势进行了分析,并给出了一些模型的应用实例。 1 数据仓库安全模型 一个好的安全模型是数据仓库安全性的重要保障。现存的许多数据仓库在设计阶段都没有能够很好地在数据仓库的安全方面进行很好的设计,这使得在数据仓库建成之后再添加关于安全方面的设计时成本大增,而且在数据仓库建成之后再实施安全策略时也比较困难。因此在设计阶段就设计好数据仓库的安全模型对于构建一个安全的数据仓库有着极其重要的意义。本文主要分析了四种关于数据仓库和OLAP的安全模型。 1.1 基于元数据的数据仓库安全模型设计 元数据是描述数据仓库内数据的结构和建立方法的数据。元数据是数据仓库中很重要的一部分,它将会影响数据仓库中所有的层次,常被开发者用来管理控制和开发数据仓库。元数据也是用户访问数据仓库的一部分,它常被用来控制访问控制和分析数据。 通过对元数据的控制来加强数据仓库的安全性,这种情况下与安全主题和客体相关的访问规则被以元数据的形式存储。当一个用户访问数据仓库中的数据时,安全查询机制层将会查询这个访问是否被允许。为了保证查询的正确进行,可通过分析“安全元数据”来分析相应的访问许可机制。 N.Katic于1998年提出一个基于元数据的安全模型[2]。这是通过“安全管理者”的方式来实现的。通过它可以管理、定义、描述用户和用户群体。此外还设置了一个安全查询管理层(SQML),它的作用是通过检查是否允许一个任务的执行来过滤用户的查询。图1描述了这个安全模型。 此模型的主要作用是如果用户企图查询他没有访问权限的数据,则由“安全管理者”和“信息服务器”可以把用户想查询而又没有查询权限的那部分数据过滤掉,而只把他可以访问的那些数据返回给他。这种操作对于用户来说是透明的,用户并不知道还有些数据他没有访问到。数据仓库的信息对于用户来说好像是提供了他所需要的所有数据。这是一个很重要的安全策略,使用户不知道自己被禁止了部分数据,因而他不会去试图访问他原本看不到的数据。这样也极大地增强了数据仓库中数据的安全性。

数据仓库多维数据模型的设计

1、数据仓库基本概念 1.1、主题(Subject) 主题就是指我们所要分析的具体方面。例如:某年某月某地区某机型某款App的安装情况。主题有两个元素:一是各个分析角度(维度),如时间位置;二是要分析的具体量度,该量度一般通过数值体现,如App安装量。 1.2、维(Dimension) 维是用于从不同角度描述事物特征的,一般维都会有多层(Level:级别),每个Level 都会包含一些共有的或特有的属性(Attribute),可以用下图来展示下维的结构和组成:以时间维为例,时间维一般会包含年、季、月、日这几个Level,每个Level一般都会有ID、NAME、DESCRIPTION这几个公共属性,这几个公共属性不仅适用于时间维,也同样表现在其它各种不同类型的维。 1.3、分层(Hierarchy) OLAP需要基于有层级的自上而下的钻取,或者自下而上地聚合。所以我们一般会在维的基础上再次进行分层,维、分层、层级的关系如下图:

每一级之间可能是附属关系(如市属于省、省属于国家),也可能是顺序关系(如天周年),如下图所示: 1.4、量度 量度就是我们要分析的具体的技术指标,诸如年销售额之类。它们一般为数值型数据。我们或者将该数据汇总,或者将该数据取次数、独立次数或取最大最小值等,这样的数据称为量度。 1.5、粒度 数据的细分层度,例如按天分按小时分。 1.6、事实表和维表 事实表是用来记录分析的内容的全量信息的,包含了每个事件的具体要素,以及具体发

生的事情。事实表中存储数字型ID以及度量信息。 维表则是对事实表中事件的要素的描述信息,就是你观察该事务的角度,是从哪个角度去观察这个内容的。 事实表和维表通过ID相关联,如图所示: 1.7、星形/雪花形/事实星座 这三者就是数据仓库多维数据模型建模的模式 上图所示就是一个标准的星形模型。 雪花形就是在维度下面又细分出维度,这样切分是为了使表结构更加规范化。雪花模式可以减少冗余,但是减少的那点空间和事实表的容量相比实在是微不足道,而且多个表联结操作会降低性能,所以一般不用雪花模式设计数据仓库。 事实星座模式就是星形模式的集合,包含星形模式,也就包含多个事实表。

商业银行数据仓库报表设计分析

**商业银行数据仓库 报表设计 版本:1.0 4/18/2020

目录 1.报表系统 (3) 1.1. 业务分析 (3) 1.2. 财务分析报表系统 (3) 1.2.1.资产业务分析(月) (3) 1.2.1.1. 资产规模增长情况分析 (4) 1.2.1.2. 资产增量变化情况分析 (4) 1.2.1.3. 资产结构变化情况分析 (4) 1.2.1.4. 贷款资产专项统计 (5) 1.2.2.负债业务分析 (5) 1.2.2.1. 负债规模增长情况分析表 (5) 1.2.2.2. 负债增量变动情况分析表 (5) 1.2.2.3. 负债结构变化情况分析表 (6) 1.2.2.4. 存款负债专项统计 (6) 1.2.3.所有者权益分析 (6) 1.2.3.1. 所有者权益增长情况分析 (6) 1.2.3.2. 所有者权益增量变动情况分析 (7) 1.2.3.3. 所有者权益结构变化情况分析 (7) 1.2.4.财务收支分析 (7) 1.2.4.1. 收支规模增长情况分析 (7) 1.2.4.2. 收支增量变动情况分析 (8) 1.2.4.3. 当期收支情况分析 (8) 1.2.4.4. 财务收支结构变动情况分析 (8) 1.2.4.5. 财务收支计划完成情况分析 (8) 1.2.5.财务比率分析 (9) 1.2.5.1. 各项财务比率分析表 (9) 1.3. 资金计划业务需求 (10) 1.3.1.资金头寸统计 (10) 1.3.2.资金负债管理指标 (10) 1.3.3.现金管理 (10) 1.3.3.1. 结算备付金统计 (10) 1.3.3.2. 库存现金统计 (11) 1.3.3.2.1. 即时余额统计 (11) 1.3.3.2.2. 日均余额统计 (11) 1.3.3.3. 业务量统计 (11) 1.3.4.票据贴现业务统计 (12) 1.4. 综合统计分析 (12) 1.4.1.存款统计 (12) 1.4.1.1. 存款结构统计 (12) 1.4.1.1.1. 日均存款统计 (12) 1.4.1.1.2. 存款即时余额统计 (12)

数据仓库建模

背景介绍 熟悉社保行业的读者可以知道,目前我们国家的社保主要分为养老,失业,工伤,生育,医疗保险和劳动力市场这6 大块主要业务领域。在这6 大业务领域中,目前的状况养老和事业的系统已经基本完善,已经有一部分数据开始联网检测。而,对于工伤,生育,医疗和劳动力市场这一块业务,有些地方发展的比较成熟,而有些地方还不够成熟。 1.业务建模阶段 基于以上的背景介绍,我们在业务建模阶段,就很容易来划分相应的业务。因此,在业务建模阶段,我们基本上确定我们本次数据仓库建设的目标,建设的方法,以及长远规划等。如下图: 图8. 业务建模阶段 在这里,我们将整个业务很清楚地划分成了几个大的业务主线,例如:养老,失业,工伤,生育,医疗,劳动力等着几个大的部分,然后我们可以根据这些大的模块,在每个业务主线内,考虑具体的业务主线内需要分析的业务主题。 因此,业务建模阶段其实是一次和业务人员梳理业务的过程,在这个过程中,不仅能帮助我们技术人员更好的理解业务,另一方面,也能够发现业务流程中的一些不合理的环节,加以改善和改进。 同时,业务建模阶段的另一个重要工作就是确定我们数据建模的范围,例如:在某些数据准备不够充分的业务模块内,我们可以考虑先不建设相应的数据模型。等到条件充分成熟的情况下,我们可以再来考虑数据建模的问题。 2.领域概念建模阶段领域概念建模阶段是数据仓库数据建模的一个重要阶段,由于我们在业务建模阶段已经完全理清相应的业务范围和流程,因此,我们在这个领域概念建模阶段的最主要的工作就是进行概念的抽象,整个领域概念建模的工作层次如下图所示:

图9. 领域概念建模阶段 从上图我们可以清楚地看到,领域概念建模就是运用了实体建模法,从纷繁的业务表象背后通过实体建模法,抽象出实体,事件,说明等抽象的实体,从而找出业务表象后抽象实体间的相互的关联性,保证了我们数据仓库数据按照数据模型所能达到的一致性和关联性。 从图上看,我们可以把整个抽象过程分为四个层次,分别为: ?抽象方法层,整个数据模型的核心方法,领域概念建模的实体的划分通过这种抽象方法来实现。 ?领域概念层,这是我们整个数据模型的核心部分,因为不同程度的抽象方法,决定了我们领域概念的不同。例如:在这里,我们可以使用“参与方”这个概念,同时,你也可以把他分成三个概念:“个人”,“公司”,和“经办机构”这三个概念。而我们在构建自己的模型的时候,可以参考业务的状况以及我们自己模型的需要,选择抽象程度高的概念或者是抽象程度低的概念。相对来说,抽象程度高的概念,理解起来较为复杂,需要专业的建模专家才能理解,而抽象程度低的概念,较适合于一般业务人员的理解,使用起来比较方便。笔者在这里建议读者可以选用抽象概念较低的实体,以方便业务人员和技术人员之间的交流和沟通。 ?具体业务层,主要是解决具体的业务问题,从这张图我们可以看出,具体的业务层,其实只是领域概念模型中实体之间的一些不同组合而已。因此,完整的数据仓库的数据模型应该能够相应灵活多变的前端业务的需求,而其本身的模型架构具有很强的灵活性。这也是数据仓库模型所具备的功能之一。 ?业务主线层,这个层次主要划分大的业务领域,一般在业务建模阶段即已经完成这方面的划分。 我们一般通过这种大的业务主线来划分整个业务模型大的框架。 通过领域概念建模,数据仓库的模型已经被抽象成一个个的实体,模型的框架已经搭建完毕,下面的工作就是给这些框架注入有效的肌体。

数据仓库设计文档模板

数据仓库设计与实现 学号 128302106 姓名江晨婷 成绩 教师张丹平 二O一五年四月

数据仓库建设方案设计与实现 摘要:本文以博士学位调查为基础,创建方案,设计与实现数据仓库,通过对当前各种主流数据仓库软件在性能、价格等方面的对比,充分考虑统计业务、单位数量等实际情况,本系统决定采用SQL Server 2005数据仓库软件来构建综合信息分析系统的数据仓库。 关键词:数据仓库;联机分析;数据挖掘;博士学位 一、概述 数据仓库的设计一般从操作型数据开始,通常需要经过以下几个处理过程;数据仓库设计——数据抽取——数据管理。 1.数据仓库设计 根据决策主题设计数据仓库结构,一般采用星型和雪花模型设计其数据模型,在设计过程中应保证数据仓库的规范化和体系各元素的必要联系。 2.数据抽取 根据元数据库中的主题表定义、数据源定义、数据抽取规则定义对异地异构数据源进行清理、转换、对数据进行重新组织和加工,装载到数据仓库的目标库中。 3.数据管理 数据管理分为目标数据维护和元数据维护两方面。目标数据维护是根据元数据为所定义的更新频率、更新数据项等更新计划任务来刷新数据仓库,以反映数据源的变化,且对时间相关性进行处理。元数据是数据仓库的组成部分,元数据的质量决定整个数据仓库的质量。当数据源的运行环境、结构及目标数据的维护计划发生变化时,需要修改元数据。 二、博士学位授予信息年度数据统计分析 1.按主管部门统计 从主管部门的角度,分析在一个时间段(年)内,各主管部门所授予的博士学位信息统计。可回答如“2008,由某部门主管的,博士学位授予一共有多少,其平均学习年限是多少,脱产学习的有多少人?”等问题。具有表格和图形两种方式来展示分析结果。典型报表格式如表1所示

数据仓库模型建设规范1.0

数据仓库模型建设规范 1.概述 数据仓库不同于日常的信息系统开发,除了遵循其他系统开发的需求、分析、设计、测试等通常的软件生命周期之外,它还涉及到企业信息数据的集成,大容量数据的阶段处理和分层存储,数据仓库的模式选择等等,因此数据仓库的模型设计异常重要,这也是关系到数据仓库项目成败的关键。 物理模型就像大厦的基础架构,就是通用的业界标准,无论是一座摩天大厦也好,还是茅草房也好,在架构师的眼里,他只是一所建筑,地基—层层建筑—封顶,这样的工序一样也不能少,关系到住户的安全,房屋的建筑质量也必须得以保证,唯一的区别是建筑的材料,地基是采用钢筋水泥还是石头,墙壁采用木质还是钢筋水泥或是砖头;当然材料和建筑细节还是会有区别的,视用户给出的成本而定;还有不可忽视的一点是,数据仓库的数据从几百GB到几十TB不等,即使支撑这些数据的RDBMS无论有多么强大,仍不可避免地要考虑数据库的物理设计。 数据仓库建模的设计目标是模型的稳定性、自适应性和可扩展性。为了做到这一点,必须坚持建模的相对独立性、业界先进性原则。 2.数聚模型架构 在数聚项目实施过程,我们一般将数据仓库系统的数据划分为如下图所示几个层次。

2.1.数据架构图

2.2.架构工作方法规范

2.3.准备层L0 2.3.1.主要数据结构 临时表:从数据源抽取,直接落地到临时表。临时表总是保存这次抽取的数据,不保留历史数据。也就是说,如果是全量抽取的话,就是源系统整个表的数据,如果 是增量抽取的话,就是自从上次修改后的数据。 接口表:从临时表,经过清洗、转换到达接口表。接口表保存历史数据,也就是说,如果是全量抽取的话,就是源系统整个表的数据,如果是增量抽取的话。 接口表里面也是源系统整个表的数据。 转换表:为了进行清洗和转换建立的中间辅助表。 2.3.2.命名规范 临时表:L0_TMP_源系统_具体业务或 L0_TMP_业务主题_具体业务(对单一源)举例:L0_TMP_POS_SALESORDER 接口表:L0_DCI_业务主题_具体业务表 举例:L0_DCI_SALES_SALESORDER 转换表:L0_MAP_具体业务表 举例:L0_MAP_SALES 2.3.3.开发工作 ●开发数据抽取接口,落地TMP区 ●开发数据清洗转换程序,落地DCI区,多源系统进行合并 ●开发数据装载程序,装载到L1层 2.4.原子层L1 2.4.1.主要数据结构 维度表:整个数据仓库一致的维度 代码表:维度属性,非维度代码等。 原子事实表:根据业务主题,形成原子事实表 汇总事实表:根据分析主题,业务主题形成合并或汇总的事实表。

20120405-032 医院数据仓库数据模型设计

医院数据仓库数据模型设计 汪涛① ①安徽省中医院,230009,安徽省合肥市梅山路117号 摘要目的:数据模型设计是数据仓库建设的核心,本文提出一种医院数据仓库数据模型的设计方法。方法:以某一三甲医院的HIS数据为背景,采用数据驱动的手段,结合医院的需求,提出了医院数据仓库的三层数据模型,概念模型、逻辑模型、物理模型,并完整地给出了每个模型的具体的设计和主要内容。结果:设计并实现了医院数据仓库的的数据模型,并结合医院具体的数据给出了相应的实例。结论:此医院数据仓库的三层数据模型易于理解和实现,为医院数据仓库设计最终完成提供了基础。 关键词数据模型概念模型逻辑模型数据仓库 1 引言 随着医疗市场的竞争越来越激烈,为了提高医院的竞争力,各家医院对信息化建设投入不断加大[1]。医院信息系统的使用提高基本业务处理的效率,提升了管理的手段。但随着时间的推移,现有系统积累了海量数据,如何对其中的各类业务数据加以整合和利用,从中挖掘出隐藏在背后的有价值、可以利用的潜在信息,对以后医院科学的业务分析和管理决策十分重要的意义。数据仓库的出现正好可以解决以上问题,如“军字一号”医院信息系统上建立数据仓库,整合和分析历史数据[2],为医院决策提供数据。而数据仓库系统如何对海量数据进行有效组织和管理,并使之支持千变万化的管理业务分析与决策,主要依赖于数据仓库系统逻辑数据模型(Logical Data Model,简称LDM )的设计[3]。一个好的逻辑数据模型能够最大的保证灵活性和可扩展性,以满足数据源的变化和应用需求的拓展。因此建设好LDM 是医院数据仓库的关键,本就此进行探讨。 2 数据仓库数据模型的概述 数据仓库是一个面向主题的、集成的、非易失的且随时间变化的数据集合,用来支持管理人员的决策,其与操作型数据库系统(OLTP)的建模方法是有不同的[4]。操作性数据库系统是为具体的业务活动,是在传统开发生命周期(SDLC)下进行的,但不适用与决策支持系统领域。在用户需求尚不明确的情况下,数据仓库的建模是从整合现有操作型数据开始的,分析业务系统的数据组织、关系模型,确定数据范围、主题,依次设计系统的概念模型、逻辑模型和物理模型;而在实际的项目实施当中,如在医院的数据仓库建设中,系统的初步需求还是需要首先了解和分析的。这为数据仓库建设提供了原始范围,以及最终为用户所接受提供保证。以下,我在设计医院数据仓库模型是从系统需求分析和HIS的数据分析开始的,采用三层模型设计的。 3 设计医院的数据仓库的数据模型 3.1 概念模型的设计 3.1.1 系统边界的确立,包括需求分析、数据来源等现有的医院数据是面向具体业务的,

数据仓库建模与ETL实践技巧

一、数据仓库的架构 数据仓库(Data Warehouse DW)是为了便于多维分析和多角度展现而将数据按特定的模式进行存储所建立起来的关系型数据库,它的数据基于OLTP源系统。数据仓库中的数据是细节的、集成的、面向主题的,以OLAP系统的分析需求为目的。 数据仓库的架构模型包括了星型架构(图二:pic2.bmp)与雪花型架构(图三:pic3.bmp)两种模式。如图所示,星型架构的中间为事实表,四周为维度表,类似星星;而相比较而言,雪花型架构的中间为事实表,两边的维度表可以再有其关联子表,从而表达了清晰的维度层次关系。 从OLAP系统的分析需求和ETL的处理效率两方面来考虑:星型结构聚合快,分析效率高;而雪花型结构明确,便于与OLTP系统交互。因此,在实际项目中,我们将综合运用星型架构与雪花型架构来设计数据仓库。 那么,下面我们就来看一看,构建企业级数据仓库的流程。 二、构建企业级数据仓库五步法 (一)、确定主题 即确定数据分析或前端展现的主题。例如:我们希望分析某年某月某一地区的啤酒销售情况,这就是一个主题。主题要体现出某一方面的各分析角度(维度)和统计数值型数据(量度)之间的关系,确定主题时要综合考虑。 我们可以形象的将一个主题想象为一颗星星:统计数值型数据(量度)存在于星星中间的事实表;分析角度(维度)是星星的各个角;我们将通过维度的组合,来考察量度。那么,“某年某月某一地区的啤酒销售情况”这样一个主题,就要求我们通过时间和地区两个维度的组合,来考察销售情况这个量度。从而,不同的主题来源于数据仓库中的不同子集,我们可以称之为数据集市。数据集市体现了数据仓库某一方面的信息,多个数据集市构成了数据仓库。 (二)、确定量度 在确定了主题以后,我们将考虑要分析的技术指标,诸如年销售额之类。它们一般为数值型数据。我们或者将该数据汇总,或者将该数据取次数、独立次数或取最大最小值等,这样的数据称为量度。 量度是要统计的指标,必须事先选择恰当,基于不同的量度可以进行复杂关键性能指标(KPI)等的设计和计算。

银行数据仓库构建分析

如何构建银行数据仓库 数据仓库技术作为一项数据管理领域的新技术,其精髓在于针对联机分析处理(OLAP)提出了一种综合的解决方案,与以往很多技术不同的是,它主要是一种概念,在此概念指导下完成系统的构造。既没有可以直接购买到的现成产品,也没有具体的分析规和实现方法,也就是说没有成熟、可靠且被广泛接受的数据仓库标准。在以往关系数据库的设计和实现中,不仅有详细的理论推导,还有无数的设计实例,无论你使用的是什么公司的数据库产品、开发工具,只要按照规做,那么实现同一业务需求的方案都会很相似。而现有数据仓库的实现中,出现了MOLAP方案和ROLAP方案的区别,出现了形形色色的数据仓库建模工具、表现工具,而设计人员的个人经验和素质也会在其中扮演很重要的角色。 数据仓库技术的实现方式 目前在数据仓库技术的实际应用中主要包括如下几种具体实现方式。 1、在关系数据库上建立数据仓库(ROLAP) 2、在多维数据库上建立数据仓库(MOLAP)

MOLAP方案是以多维方式来组织数据,以多维方式来存储数据;ROLAP 方案则以二维关系表为核心表达多维概念,通过将多维结构划分为两类表:维表和事实表,使关系型结构能较好地适应多维数据的表示和存储。在多维数据模型的表达方面,多维矩阵比关系表更清晰且占用的存储更少,而通过关系表间的连接来查询数据的ROLAP系统,系统性能成为最大问题。MOLAP方案比ROLAP方案要简明,索引及数据聚合可以自动进行并自动管理,但同时丧失了一定的灵活性。ROLAP方案的实现较为复杂,但灵活性较好,用户可以动态定义统计和计算方式,另外能保护在已有关系数据库上的投资。 由于两种方案各有优劣,因此在实际应用中,往往将MOLAP和ROLAP 结合使用,即所谓的混合模型。利用关系数据库存储历史数据、细节数据或非数值型数据,发挥关系数据库技术成熟的优势,减少花费,而在多维数据库中存储当前数据和常用统计数据,以提高操作性能。 3、在原有关系库上建立逻辑上的数据仓库 由于目前正在运行的OLTP系统中已经积累了海量数据,如何从中提取出决策所需的有用信息就成为用户最迫切的需要。新建数据仓库固然能从功能、性能各方面给出一个完整的解决方案,但需要投入大量的人力、物力,并且数据仓库的建设和分析数据的积累需要一段时间,无法及时满足用户对信息分析的迫切需要。因此在筹建数据仓库的前期,可以采用一些合适的表现工具,在原有OLTP系统上建立起一个逻辑的数

数据仓库与数据挖掘课程设计报告书

目录 1. 绪论 (2) 1.1项目背景 (2) 1.2 提出问题 (2) 2 数据库仓库与数据集的概念介绍 (2) 2.1数据仓库 (2) 2.2数据集 (3) 3 数据仓库 (3) 3.1 数据仓库的设计 (3) 3.1.1数据仓库的概念模型设计 (3) 3.1.2数据仓库的逻辑模型设计 (3) 3.2 数据仓库的建立 (4) 3.2.1数据仓库数据集 (4) 3.2.2建立维表 (4) 4.数据挖掘操作 (5) 4.1数据预处理 (5) 4.1.1描述性数据汇总 (5) 4.2决策树 (5) 5、实验心得 (13) 6、大总结 (14)

1. 绪论 1.1项目背景 在现在大数据时代,各行各业需要对商品及相关关节的数据进行收集处理,尤其零售行业,于企业对产品的市场需求进行科学合理的分析,从而预测出将来的市场,制定出高效的决策,给企业带来经济收益。 1.2 提出问题 对于超市的商品的购买时期和购买数量的如何决定,才可以使销售量最大,不积压商品,不缺货,对不同时期季节和不同人群制定不同方案,使企业收益最大,通过数据挖掘对数据进行决策树分析,关联分析,顺序分析与决策分析等可以制定出最佳方案。 2 数据库仓库与数据集的概念介绍 2.1数据仓库 数据仓库是为企业所有级别的决策制定过程提供支持的所有类型数据的战略集合。它是单个数据存储,出于分析性报告和决策支持的目的而创建。为企业提供需要业务智能来指导业务流程改进和监视时间、成本、质量和控制。 数据仓库是决策系统支持(dss)和联机分析应用数据源的结构化数据环境。

数据仓库研究和解决从数据库中获取信息的问题。数据仓库的特征在于面向主题、集成性、稳定性和时变性。 2.2数据集 数据集是指一种由数据所组成的集合。Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。 3 数据仓库 3.1 数据仓库的设计 3.1.1数据仓库的概念模型设计 概念模型的设计是整个概念模型开发过程的三阶段。设计阶段依据概念模型分析以及分析过程中收集的任何数据,完成星型模型和雪花型模型的设计。如果仅依赖ERD,那只能对商品、销售、客户主题设计成如图所示的概念模型。这种模型适合于传统的数据库设计,但不适合于数据仓库的设计。 3.1.2数据仓库的逻辑模型设计 逻辑建模是数据仓库实施中的重要一环,因为它能直接反映出各个业务的需求,同时对系统的物理实施有着重要的指导作用,它的作用在于可以通过实体和关系勾勒出企业的数据蓝图,数据仓库的逻辑模型设计任务主要有:分析主题域,确定要装载到数据仓库的主题、确认粒度层次划分、确认数据分割策略、关系模式的定义和记录系统定义、确认数据抽取模型等。逻辑模型最终设计成果包

(完整版)XX银行数据仓库建设项目方案

XX银行 EDW/数据仓库项目方案

目录 第一章系统总体架构............................................................................. 41.1总体架构设计概述 ........................................................................ 4 1.1.1总体架构的设计框架.............................................................. 4 1.1.2总体架构的设计原则.............................................................. 5 1.1.3总体架构的设计特点.............................................................. 51.2EDW执行架构................................................................................. 6 1.2.1执行架构概述 ........................................................................ 6 1.2.2执行架构设计原则 ................................................................. 6 1.2.3执行架构框架 ........................................................................ 71.3EDW逻辑架构.............................................................................. 14 1.3.1逻辑架构框架 ..................................................................... 14 1.3.2数据处理流程 ..................................................................... 201.4EDW运维架构.............................................................................. 21 1.4.1运维架构概述 ..................................................................... 21 1.4.2运维架构的逻辑框架........................................................... 221.5EDW数据架构.............................................................................. 27 1.5.1数据架构设计原则 .............................................................. 27 1.5.2数据架构分层设计 .............................................................. 291.6EDW应用架构.............................................................................. 31 1.6.1应用架构设计原则 .............................................................. 31 1.6.2数据服务 ............................................................................ 32 1.6.3应用服务 ............................................................................ 33第二章 ETL体系建设 ........................................................................... 34 2.1ETL架构概述.............................................................................. 34

银行信用卡数据仓库建设

银行信用卡数据仓库建设 一、需求分析 银行建立数据仓库的必要性。中国的银行业在发展过程中,已逐步实现了绝大多数核心业务的计算机处理,积累了大量的客户数据和经营数据,这些数据是银行的宝贵财富,如何利用这些数据,发掘有价值的信息,解决问题的关键是建立银行企业级的数据仓库,实现对银行所有经营信息和客户信息的有效存储,并针对银行不同部门的管理决策需要,进行多层次的数据加工处理,以多种方式呈现真正有价值的信息(例如,维度,商业需求用户数量等),满足银行管理决策和客户分析的需要。 由此可以看出,整合数据建立一个全银行统一的数据中心,对于银行来说是非常重要的。通过数据仓库技术,将x银行全国各地的数据整合,并对数据进行一系列的抽取、加工、清洗、加载,使得数据能够有很高的利用价值。通过智能化的报表加工工具Cognos来快速的生成多种多样的报表,从不同的维度来展现数据。这些报表对于管理层来说数据更准确、更有价值,而且还可以根据上级的不同需求来随时生成想要看到的报表。这些对于银行发展新的客户、改善与老客户的关系、提高市场竞争力和占有率是非常重要和迫切的。 二.维度分析 1)卡量分析 2)客户量分析

3)账户分析 通过对卡量、客户量和账户量分析指标的业务定义的分析,卡信息汇总表选取的入仓字段有卡号、开卡日期、激活日期、销卡日期、销卡日期、到期日、发卡机构。 通过对卡量、客户量和账户量分析指标的业务定义的分析,选取的入仓字段有机构代码、性别代码、客户号。 通过对卡量、客户量和账户量分析指标的业务定义的分析,选取的账号信息汇总表的入仓字段有账号、销户日期、账户状态、开户日期、销户日期、账户余额、逾期状态。 三、所用到的技术简单概述 1)ETL概述 E是Extraction的简写,表示数据的抽取;T是Transformation的简写,表示数据的转换;L是Loading的简写,表示数据的加载。ETL是数据抽取(Extraction)、转换(Transformation)、加载(Loading)的过程。 抽取(Extraction),在数据仓库系统的建设中是对数据的操作,就是将数据从 各种原始的业务系统中读取出来,这是要建立数据仓库系统的所有工作的前提。

相关主题