搜档网
当前位置:搜档网 › 数据仓库产品优缺点分析及技术发展展望

数据仓库产品优缺点分析及技术发展展望

数据仓库产品优缺点分析及技术发展展望
数据仓库产品优缺点分析及技术发展展望

数据仓库DBMS产品分析及发展展望

2011年1月,全球IT研究与顾问咨询公司Gartner发布了“2010数据仓库数据库管理系统魔力象限”(Magic Quadrant for Data Warehouse Database Management Systems)报告,此报告对2010年数据仓库领域的16种主要产品进行的整体描述。魔力象限通过分析产品技术、市场份额、客户反应等要素,将数据仓库产品分为领导者、挑战者、有远见者和特定领域者。从报告中可以较客观地得出各数据仓库产品的优势和不足,以及未来技术发展方向,为企业的数据仓库选型提供参考。

图1 2010年数据仓库数据库管理系统魔力象限

一、数据仓库产品分析

受资料所限,本文重点对报告中的领导者象限产品进行分析,其他产品在国内应用较少,这里只做简单说明。

1.Teradata

Teradata近几年一直处于数据仓库领导者地位,我行数据仓库也采用Teradata产品。Teradata数据仓库产品线丰富,能够适应各种规模的数据仓库。产品主要是集成的专用数据库设备(集成了服务器、存储、操作系统和数据库),有单节点系列(面向开发和测试)、1系列(面向大规模数据存储分析)、2系列(面向部门级数据仓库)、4系列(采用固态硬盘,面向高速分析)、5系列(面向企业级数据仓库)。

Teradata的数据仓库解决方案齐全,以前一直走“高端策略”,在大规模企业级数据仓库客户中占有绝对优势。不过,在其他产品的竞争下,逐渐向中端客户领域扩展。

产品优势:

●大数据量处理性能较强

●可线性扩展,实现投资保护

●数据库易于管理和维护

●第三方软件产品丰富

产品不足:

●专用设备,环境搭建复杂,扩展时停机时间较长

●混合负载控制存在问题

●各系列产品互联困难

●价格较高

2.Oracle Exadata

Oracle是数据库产品的领军人物,占据全球关系型数据库市场的48%。Exadata是其推出的数据仓库产品,通过专用的集成设备、大容量并行网格结构及Exadata Smart Flash Cache技术实现了处理高并发工作负荷的能力,产品中还增加了分区管理功能、列存储压缩等技术,大幅提高了数据处理性能,能够支持各种规模的数据仓库应用。

产品优势:

●事务类任务处理性能较好

●混合负载控制较好

●兼容Oracle产品和工具,易于使用

产品不足:

●大数量处理性能上存在不足

●部署和管理复杂,且扩展能力差

●价格和维护成本较高

3.IBM Netezza

IBM最初使用DB2提出数据仓库解决方案,并提供了独立数据库软件和数据库机的解决方案,但产品技术优势不明显,且未给予足够重视,市场逐渐萎缩。为弥补不足,2010年IBM收购了专业的数据仓库厂商Netezza,希望利用Netezza的技术来与Teradata、Oracle等产品抗衡。

Netezza提供集成的数据库设备Twinfin解决方案,利用专利“流式数据处理架构FPGAs”技术(硬件芯片),在数据通过磁盘时可以将无关数据快速过滤,解决了传统数据仓库产品的服务器和存储间数

据流瓶颈问题,实现高性能数据处理。

产品优势:

●针对数据分析设计,性价比高

●兼容Oracle语句及主流BI工具

●系统易于管理和维护

●刀片式架构,扩展简单

产品不足:

●混合负载控制存在不足

●流技术主要适用于趋势分析,对于精确分析略显不足

4.Sybase

Sybase提供独立的数据库软件Sybase IQ 和集成的数据仓库设备两种解决方案,Sybase IQ 的核心技术是“列存储”,此技术被证明更适合于数据仓库。首先,数据仓库一般只访问记录的部分字段,因此磁盘访问时可以不读取整条记录,只读取需要的字段,大大减少了I/O;其次,“列存储”可以获得比传统数据库更高的压缩比,在海量数据仓库中能节省大量空间;最后,由于查询中的选择条件是通过列来定义的,因此整个数据库能够实现自动索引。

产品优势:

●“列存储”技术

●混合负载控制较好

●并行查询及扩展能力强

●集成数据挖掘工具,适合实时分析

产品不足:

●列存储的一些问题(如载速度、复杂查询等方面较差)

●硬件厂商和第三方软件支持力度正在减弱

5.GreenPlum

GreenPlum近几年异军突起,以其独特的技术与传统数据仓库产品相抗衡。2010年被EMC收购后,产品线进一步完善,提供独立的数据库软件和集成的数据仓库设备两种解决方案。

GreenPlum将SQL和MapReduce功能整合到统一的数据处理框架中,利用MPP架构的并行计算能力满足大规模数据存储和处理需求。产品的一大特色是可与任何基于MapReduce的外部产品协同工作,容易实现当下流行的“云计算”架构;另一大特色是用户可以自行选择开放平台PC服务器搭建海量数据处理环境,降低数据仓库的TCO。

产品优势:

●支持行列混合存储,消除了单独行存储和列存储的缺陷

●可在线扩容和维护,无需停机

●数据加载速度快,可实现实时分析

●基于PosgreSQL开发,工具和应用资源丰富

●符合“云计算”发展方向

产品不足:

●使用开放平台实现,稳定性相对较差

●大数据量在节点间重分布时,其非专用网络设计易导致性能瓶

Tempo大数据分析平台介绍

Tempo大数据分析平台介绍 (Tempo-DataAnalysis) 美林数据技术股份有限公司,专注数据价值发现,为客户提供大数据分析与利用产品和业务解决方案; 重点与大家分享美林T empo大数据分析平台,会从平台概述、产品特点、应用价值和行业案例四个部分进行介绍。 第一部分产品概述 “美林T empo大数据分析平台”,即T empo-DataAnalysis;是一款数据价值发现与利用平台,为客户提供专业、敏捷、易用的大数据分析挖掘与可视化展现的工具。 2015年12月12日北京中关村大数据日,美林T empo大数据分析平台正式发布。

T empo平台以数据增值为目标,为客户提供多种数据处理与分析方法,满足组织不同角色的数据价值挖掘和应用的需求。 T empo平台面向企业各级数据分析、数据价值利用人员,集数据可视化探索、数据深度分析、模型应用开发于一体的大数据平台。 平台首先能够实现对多数据源进行接入和处理; 平台实现数据接入、数据处理、数据分析、结果应用等产品处理应用全过程;客户可以通过数据可视化方式进行直观分析,也能通过数据挖掘发掘数据中隐含

的深度规律。 平台可面向企业领导、各级业务人员、技术人员共同使用; 产品的核心理念就是“智能、互动、增值”; 产品具备多种智能算法,可视化分析过程智能化,产品以可视交互的方式实现分析,产品不仅为客户节约成本、提高效率,更重要是为客户创造价值。 第二部分,产品特点, 主要包括四个方面:

第一个特点,基于大数据架构 TEMPO平台基于大数据架构,支持分布式存储、分布式并行计算、内存计算。 支持Hadoop、Hive、Y arn、Spark、Zookeeper、Sqoop、Kafka、Python、Scala、Mesos、Chronos、hbase、T ez、Mongodb等多种大数据技术。 第二个特点,领先算法 产品内嵌10种世界领先独创算法、19种经典算法。

分析方法总结及优缺点

一、德尔菲法 优点: 1、能充分发挥各位专家的作用,集思广益,准确性高。 2、能把各位专家意见的分歧点表达出来,取各家之长,避各家之短。 3、权威人士的意见影响他人的意见; 4、有些专家碍于情面,不愿意发表与其他人不同的意见; 5、出于自尊心而不愿意修改自己原来不全面的意见。 缺点: 德尔菲法的主要缺点是过程比较复杂,花费时间较长。 适用范围:项目规模宏大且环境条件复杂的预测情境。 二、类比法 优点:1、它不涉及任何一般性原则,它不需要在“一般性原则”的基础上进行推理。它只是一种由具体情况到具体情况的推理方式,其优越性在于它所得出的结论可以在今后的超出原案例事实的情况下进行应用。 2、类比法比其他方法具有更高的精确性; 3、类比过程中的步骤可以文档化以便修改。 缺点: 1 严重依赖于历史数据的可用性; 2 能否找出一个或一组好的项目范例对最终估算结果的精确度有着决 定性的影响; 3 对初始估算值进行调整依赖于专家判断。 适用范围:类比法是按同类事物或相似事物的发展规律相一致的原则,对预测目标事物加以对比分析,来推断预测目标事物未来发展趋向与可能水平的一种预测方法。类比法应用形式很多,如由点推算面、由局部类推整体、由类似产品类推新产品、由相似国外国际市场类推国内国际市场等等。类比法一般适用于预测潜在购买力和需求量、开拓新国际市场、预测新商品长期的销售变化规律等。类比法适合于中长期的预测。 三、回归分析法

优点:1、从收入动因的高度来判断收入变化的合理性,彻底抛弃了前述“无重大波动即为正常”的不合理假设。并且,回归分析不再只是简单的数据比较,而是以一整套科学的统计方法为基础。 、运用回归方法对销售收入进行分析性复核,可以考虑更多的影响因素作为解释变量,即使被审计单位熟悉了这种方法,其粉饰和操纵财务报表的成本也十分高昂。 缺点:需要掌握大量数据, 应用:社会经济现象之间的相关关系往往艰以用确定性的函数关系来描述,它们大多是随机性的,要通过统计观察才能找出其中规律。回归分桥是利用统计学原理描述随机变量间相关关系的一种重要方法。 四、时间序列分析法 优点:根据市场过去的变化趋势预测未来的发展,根据客观事物发展的这种连续规律性,运用过去的历史数据,通过统计分析,进一步推测市场未来的发展趋势。 缺点:运用时间序列分析进行量的预测,实际上将所有的影响因素归结到时间这一因素上,只承认所有影响因素的综合作用,并在未来对预测对象仍然起作用,并未去分析探讨预测对象和影响因素之间的因果关系。由于事物的发展不仅有连续性的特点,而且又是复杂多样的。。 适用范围:中短期预测 五、弹性系数分析法 优点:简单易行,计算方便,计算成本低;需要的数据少,应用灵活广泛。 缺点:1、分析带有一定的局部性和片面性。只考虑两个变量间的关系,忽略了其他相关变量的影响; 2、结果比较粗糙,很多时候要根据弹性系数的变动趋势对弹性系数进行 修正。 应用:应用利用弹性系数预测未来时期能源需求时,可以通过对未来产业结构变化趋势、技术节能潜力等因素的分析,以及参照世界大多数国家发展历程中所皇现的共同规律,给出未来年份能源消费弹性系数的变化趋势或构想方案,以预测未来的能源需求量。

光谱分析法和化学分析法优缺点

一、分析的方法不同: 化学分析是指利用化学反应和它的计量关系来确定被测物质的组成和含量的一类分析方法。测定时需使用化学试剂、天平和一些玻璃器皿。 仪器分析(近代分析法或物理分析法):是基于与物质的物理或物理化学性质而建立起来的分析方法。这类方法通常是测量光、电、磁、声、热等物理量而得到分析结果,而测量这些物理量,一般要使用比较复杂或特殊的仪器设备,故称为“仪器分析”。仪器分析除了可用于定性和定量分析外,还可用于结构、价态、状态分析,微区和薄层分析,微量及超痕量分析等,是分析化学发展的方向。 二、仪器分析(与化学分析比较)的特点: L级,甚至更低。适合于微量、痕量和超痕量成分的测定。μg、μ1. 灵敏度高,检出限量可降低。如样品用量由化学分析的mL、mg级降低到仪器分析的 2. 选择性好。很多的仪器分析方法可以通过选择或调整测定的条件,使共存的组分测 定时,相互间不产生干扰。 3. 操作简便,分析速度快,容易实现自动化。 仪器分析的特点(与化学分析比较) 4. 相对误差较大。化学分析一般可用于常量和高含量成分分析,准确度较高,误差小 于千分之几。多数仪器分析相对误差较大,一般为5%,不适用于常量和高含量成分分析。 5. 仪器分析需要价格比较昂贵的专用仪器。 三、仪器分析与分析化学的关系: 二者之间并不是孤立的,区别也不是绝对的严格的。a. 仪器分析方法是在化学分析的基础上发展起来的。许多仪器分析方法中的式样处理涉及到化学分析方法(试样的处理、分离及干扰的掩蔽等);同时仪器分析方法大多都是相对的分析方法,要用标准溶液来校对,而标准溶液大多需要用化学分析方法来标定等。b. 随着科学技术的发展,化学分析方法也逐步实现仪器化和自动化以及使用复杂的仪器设备。 化学方法和仪器方法是相辅相成的。在使用时应根据具体情况,取长补短,互相配合。 四、学习掌握的目标不同: 化学分析主要的内容为:数据处理与误差分析、四大滴定分析法、重量分析法。学习化学分析要求掌握其基本的原理和测定方法,建立起严格的“量”的概念。能够运用化学平衡的理论和知识,处理和解决各种滴定分析法的基本问题,包括滴定曲线、滴定误差、滴定突跃和滴定终点的判断,掌握重量分析法分析化学中的数据处理与误差处理。正确掌握有关的科学实验技能,具备必要的分析问题和解决问题的能力。 仪器分析涉及的分析方法是根据物质的光、电、声、磁、热等物理和化学特性对物质的组成、结构、信息进行表征和测量,学习仪器分析要求掌握的现代分析技术,牢固掌握各类仪器分析方法的基本原理以及仪器的各重要组成部分,对各仪器分析方法的应用对象及分析过程要有基本的了解。可以根据样品性质、分析对象选择最为合适的分析仪器及分析方法。

数据仓库项目常见管理问题

1.项目管理问题 1.企业经历过两次失败的数据仓库建设,现在是第三次,人们普遍认为这次也将会失败。项目经理应该作些什么来消除人们对数据仓库的消极看法? 2.企业的业务系统方,即OLTP方的工作人员对数据仓库方不配合,比如对数据仓库的源数据申请置之不理。项目经理应该如何来应付这种情况? 3.企业的管理层变动较频繁,支持数据仓库的企业领导可能会离开,面对这种情况,项目经理应该如何应付? 4.企业雇佣一家咨询公司来实现一个数据仓库,但是企业的CIO认为数据仓库的建设是对其职位和权威的挑战,不断给咨询人员和项目设置障碍。咨询人员应该如何来应付这种情况? 5.企业管理层希望试验系统(原型系统)具有和生产系统相同级别的数据质量。项目经理应该如何做,才能让管理层相信,试验系统不必和生产系统具有相同级别的数据质量? 6.用户部门领导对共享数据不配合或者只在表面上配合。他们希望能够控制谁能查看什么数据以及什么时候可以查看。数据仓库团队怎样才能让部门领导把数据的访问权共享出来? 7.建立好的数据几乎满足所有的成功标准。但是企业的高级管理层对数据仓库的反应很冷淡。数据仓库团队应该如何应付这种情况? 2.项目需求问题 1.数据仓库项目已经开发了6个月的时间,在项目的开发过程中,数据仓库团队发现业务源系统正在被重写,业务系统在不断的变化,一个新的系统开发出来预计只有8个月的寿命。数据仓库团队应该如何应付这种情况? 2.源系统和数据仓库系统同期建设。但是源系统在不断的变化中,而且源系统的开发团队没有将变化告知数据仓库团队,数据仓库团队在测试过程中出现故障才发现这些变化。这种没有告知有可能是故意的。数据仓库团队应该如何来应付这种情况? 3.数据仓库项目开始时,企业制定了一套有效的数据仓库目标。但是,随着时间的流逝,企业又制定了一些决策,采取了一些行动,这些决策和行动与最初的目标背道而驰。数据仓库团队应该如何应付这种情况? 4.数据仓库项目进展十分顺利,但是根本没有办法判断项目将来是否能够成功。要想为数据仓库确立一个完全合适的目标是不可能的。企业应该如何来面对这种状况?

浅谈数据仓库中的元数据管理技术

浅谈数据仓库中的元数据管理技术 孙力君仇道霞方峻峰宋楠 山东省烟草公司信息中心 摘要:数据仓库是数据库的发展方向之一,对企业管理和决策支持起着重要的辅助作用。简要介绍了数据仓库和元数据的基本概念,重点阐述了元数据的概念、作用、CWM标准、来源,并就元数据具体应用进行了初步的研究和探讨。 关键词:数据仓库;元数据; 1. 引言 随着市场竞争的越来越激烈,烟草行业的信息化建设不断的深入发展,全行业形成了“以信息化带动烟草行业现代化建设”的基本共识,明确了“统一标准、统一平台、统一数据库、统一网络”,逐步实现系统集成、资源整合、信息共享的信息化建设总体要求,走过了“由基础性向应用性、由局部性向全局性、由分散性向集中性建设”的三个转变历程,初步形成了“数字烟草”的行业信息化建设格局,既对行业数据中心的建设提出了迫切的要求,也为行业数据中心建设奠定了坚实的基础。 随着数据库技术尤其是数据仓库技术的发展,人类能更容易获得自己需要的数据和信息,由于元数据是数据仓库中非常重要的组成部分,因此讨论和研究元数据在数据仓库中的作用和应用,具有非常重要的意义。 元数据管理是山东烟草数据中心建设的重要组成部分,元数据管理平台为用户提供高质量、准确、易于管理的数据,它贯穿数据中心构建、运行和维护的整

个生命周期。同时,在数据中心构建的整个过程中,数据源分析、ETL过程、数据库结构、数据模型、业务应用主题的组织和前端展示等环节,均需要通过相应的元数据的进行支撑。元数据管理的生命周期包括元数据获取和建立、元数据的存储、元数据浏览、元数据分析、元数据维护等部分。 通过元数据管理,形成整个系统信息数据资的准确视图,通过元数据的统一视图,缩短数据清理周期、提高数据质量以便能系统性地管理数据中心项目中来自各业务系统的海量数据,梳理业务元数据之间的关系,建立信息数据标准完善对这些数据的解释、定义,形成企业范围内一致、统一的数据定义,并可以对这些数据来源、运作情况、变迁等进行跟踪分析。完善数据中心的基础设施,通过精确把握经营数据来精确把握瞬息万变的市场竞争形式,使山东烟草在市场竞争中保持优势。 总的来说,元数据管理平台集成相关的元数据,形成企业的全局数据视图,提供企业级共享元数据的平台,是烟草业务系统的基础设施,对业务系统的发展、应用和数据质量的提升有着深远影响。 2.数据仓库概述 目前有关数据仓库的概念有多种,其中最经典的,引用最为广泛的定义是W.H.Inmon在《Building the Data Warehouse》一书中给出的,他指出:“数据仓库是面向主题的、集成的、随时间变化的、非易失的数据集合,用于支持管理层的决策过程”。[1] 之所以要引入数据仓库,是因为随着信息时代的到来,如何从大量已存在的数据中提取出自己所感兴趣的信息并进行分析和预测越来越成为企业管理者和决策者所关心的问题。为了更好的进行管理和决策,许多企业都选择了数据仓库,利用数据仓库可以对各种源数据进行抽取、清理、加工

分析方法总结及优缺点

一、德尔菲法 优点:1、能充分发挥各位专家的作用,集思广益,准确性高。 2、能把各位专家意见的分歧点表达出来,取各家之长,避各家之短。 3、权威人士的意见影响他人的意见; 4、有些专家碍于情面,不愿意发表与其他人不同的意见; 5、出于自尊心而不愿意修改自己原来不全面的意见。 缺点: 德尔菲法的主要缺点是过程比较复杂,花费时间较长。 适用范围:项目规模宏大且环境条件复杂的预测情境。 二、类比法 优点:1、它不涉及任何一般性原则,它不需要在“一般性原则”的基础上进行推理。它只是一种由具体情况到具体情况的推理方式,其优越性在于它所得出的结论可以在今后的超出原案例事实的情况下进行应用。 2、类比法比其他方法具有更高的精确性; 3、类比过程中的步骤可以文档化以便修改。 缺点: 1 严重依赖于历史数据的可用性; 2 能否找出一个或一组好的项目范例对最终估算结果的精确度有着决 定性的影响; 3 对初始估算值进行调整依赖于专家判断。 适用范围:类比法是按同类事物或相似事物的发展规律相一致的原则,对预测目标事物加以对比分析,来推断预测目标事物未来发展趋向与可能水平的一种预测方

法。类比法应用形式很多,如由点推算面、由局部类推整体、由类似产品类推新产品、由相似国外国际市场类推国内国际市场等等。类比法一般适用于预测潜在购买力和需求量、开拓新国际市场、预测新商品长期的销售变化规律等。类比法适合于中长期的预测。 三、回归分析法 优点:1、从收入动因的高度来判断收入变化的合理性,彻底抛弃了前述“无重大波动即为正常”的不合理假设。并且,回归分析不再只是简单的数据比较,而是以一整套科学的统计方法为基础。 、运用回归方法对销售收入进行分析性复核,可以考虑更多的影响因素作为解释变量,即使被审计单位熟悉了这种方法,其粉饰和操纵财务报表的成本也十分高昂。 缺点:需要掌握大量数据, 应用:社会经济现象之间的相关关系往往艰以用确定性的函数关系来描述,它们大多是随机性的,要通过统计观察才能找出其中规律。回归分桥是利用统计学原理描述随机变量间相关关系的一种重要方法。 四、时间序列分析法 优点:根据市场过去的变化趋势预测未来的发展,根据客观事物发展的这种连续规律性,运用过去的历史数据,通过统计分析,进一步推测市场未来的发展趋势。 缺点:运用时间序列分析进行量的预测,实际上将所有的影响因素归结到时间这一因素上,只承认所有影响因素的综合作用,并在未来对预测对象仍然

数据仓库技术及实施

数据库与信息管理 电脑知识与技术 1引言 传统的数据库技术是以单一的数据资源,即数据库为中心,进行事务处理、批处理、决策分析等各种数据处理工作,数据处理可划分为两大类:操作型处理(OLTP)和分析型处理(统计分析)。操作型处理也叫事务处理,是指对数据库联机的日常操作,通常是对一个或一组纪录的查询和修改,主要为企业的特定应用服务的,注重响应时间,数据的安全性和完整性;分析型处理则用于管理人员的决策分析,经常要访问大量的历史数据。而传统数据库系统利于应用的日常事务处理工作,而难于实现对数据分析处理要求,更无法满足数据处理多样化的要求。因此,专门为业务的统计分析建立一个数据中心,它是一个联机的系统,专门为分析统计和决策支持应用服务的,通过它可以满足决策支持和联机分析应用所要求的一切。这个数据中心就叫做数据仓库。 2数据仓库概念及发展 2.1什么是数据仓库 数据仓库就是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程。数据仓库最根本的特点是物理地存放数据,而且这些数据并不是最新的、专有的,而是来源于其它数据库的。数据仓库的建立并不是要取代数据库,它要建立在一个较全面和完善的信息应用的基础上,用于支持高层决策分析,而事务处理数据库在企业的信息环境中承担的是日常操作性的任务。 2.2相关基本概念 2.2.1元数据 元数据(metadata):是“关于数据的数据”,相当于数据库系统 中的数据字典,指明了数据仓库中信息的内容和位置,刻画了数据的抽取和转换规则,存储了与数据仓库主题有关的各种信息,而且整个数据仓库的运行都是基于元数据的,如修改跟踪数据、抽取调度数据、同步捕获历史数据等。 2.2.2OLAP(联机分析处理On-lineAnalyticalProcessing)数据仓库用于存储和管理面向决策主题的数据,OLAP对数据仓库中的数据分析,并将其转换成辅助决策信息。OLAP的一个 重要特点是多维数据分析,这与数据仓库的多维数据组织正好形 成相互结合、相互补充的关系。OLAP技术中比较典型的应用是对多维数据的切片和切块、钻取、旋转等,它便于使用者从不同角度提取有关数据,其基本思想是:企业的决策者应能灵活地操纵企业的数据,以多维的形式从多方面和多角度来观察企业的状态、了解企业的变化。对OLAP进行分类,按照存储方式的不同,可将 OLAP分成ROLAP、MOLAP和HOLAP;ROLAP没有大小限制;现 有的关系数据库的技术可以沿用;可以通过SQL实现详细数据与概要数据的储存;现有关系型数据库已经对OLAP做了很多优 化,包括并行存储、并行查询、并行数据管理、基于成本的查询优化、位图索引、SQl的OLAP扩展等大大提高了ROALP的速度;可以针对SMP或MPP的结构进行查询优化。 一般比MDD响应 速度慢;只读、不支持有关预算的读写操作;SQL无法完成部分计算,主要是无法完成多行的计算,无法完成维之间的计算。 MOLAP性能好、 响应速度快;专为OLAP所设计;支持高性能的决策支持计算;复杂的跨维计算;多用户的读写操作;行级的计算。增加系统复杂度,增加系统培训与维护费用;受操作系统平台中文件大小的限制,难以达到TB级;需要进行预计算,可能导致数据爆炸;无法支持维的动态变化;缺乏数据模型和数据访问的标准。 HOLAP综合了ROLAP和MOLAP的优点。它将常用的数据存储为MOLAP,不常用或临时的数据存储为ROLAP,这样就兼顾 了ROLAP的伸缩性和MOLAP的灵活、纯粹的特点。 收稿日期:2006-03-24 作者简介:赵方(1979-),女,浙江杭州人,浙江树人大学助教,硕士在读,主要从事教学、科研工作,以数据库应用、信息管理为主要研究方向。 数据仓库技术及实施 赵 方 (浙江树人大学,浙江杭州310015) 摘要:介绍了数据仓库的基本概念,针对数据仓库建立对创建数据仓库的过程进行了分析,对实现数据抽取、数据仓库的存储和管理等进行分析和比较。 关键词:数据仓库;联机分析处理;数据抽取;数据存储中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2006)17-0032-02 ResearchofDataWarehouseTechnology ZHAOFang (ZhejiangShurenUniversity,Hangzhou310015,China) Abstract:Inthispaper,theinternalcharacteristicsofDataWarehouseareintroduced.AnalyzedtheprocedureofintegratedDataWarehouseandbuildingthedatawarehouse,DataExtract,DataWarehouseStorageandhowtomanagetheDataWarehouse. Keywords:DataWarehouse;OLAP(On-lineAnalyticalProcessing);DataExtractTransformLoad;DataStorage 32

数据仓库中元数据的管理

数据仓库中元数据的管理M etadata M anagem en t i n a Data W arehouse 同济大学计算机科学与工程系(上海200092) 史金红 吴永明 【摘要】 介绍了数据仓库中四种基本类型的元数据,说明了不同类型元数据的收集和维护方法,并着重对分布式元数据的集成和管理进行了详细的阐述。 关键词:数据仓库,数据商场,决策支持,元数据 【Abstract】 T h is p ap er in troduces fou r typ es of m etadata and the m ethods of co llecting and m ain tain ing them.It focu ses on the m etadata m anagem en t and in tegrity. Key words: da ta warehouse,da ta mart, dec ision support,m etada ta 1 引言 随着社会的发展和计算机技术的进步,人们已不满足于用计算机只作简单的数据处理和事务处理。进一步用现有的数据进行分析和推理,从而为决策提供依据的需求导致了决策支持系统(D SS)的出现。90年代以来计算机技术、网络技术和数据库技术的迅速发展为D SS提供了必要的技术环境, OL T P和办公自动化普遍应用积累的大量数据为D SS提供了必要的数据基础,日趋激烈的市场竞争促进了各级管理和决策人员对D SS的实际需求,因此自从1991年W.H.Inm on提出数据仓库的概念和1993年E.F.Codd提出OLA P概念以来,已有许多商品化的数据仓库管理系统和联机分析处理工具软件面市。以上诸因素的共同作用促成许多公司、机构纷纷为提高自己的竞争能力建立数据仓库系统以进行决策支持。 元数据是成功的数据仓库的重要组成部分,它可以帮助数据仓库项目小组明确而全面地理解潜在数据源的物理布局以及所有数据元的业务定义,帮助数据仓库用户有效地使用仓库中的信息,帮助数据库管理员了解某些表的变化将对数据仓库产生怎样的影响以及不同商业过程对应的应用等等。项目小组在开发过程中应当识别元数据并将它收入到元数据商店中,实施适当的过程捕作企业数据结构和应用的变化,从而修改相应的元数据,并向用户提供适当的工具访问元数据。 2 元数据的基本类型 元数据按照其用户可以分为技术元数据和商业元数据。技术元数据提供给数据仓库的技术人员,数据仓库技术人员在仓库的开发和维护中使用这类元数据。商业元数据是商业用户在仓库中寻找他们所需商业信息的一个辅助。但是,技术人员可能也需要访问几种类型的商业元数据,如和商业用户讨论信息需求和建立企业的数据模型。同样,商业用户也需要尝试高水平的技术元数据。 元数据按其内容可以分为四个基本类型: 1)关于数据仓库潜在数据来源的信息,包括现有的业务系统、可得到的外部数据和目前手工维护的信息。例如,一个组织可以从中识别数据来源的潜在仓库数据源有:几个现有的应用程序,由财务部门保存的基于PC机的电子报表,从某一卖主处购买的销售数据,目前由顾客服务部门在纸上保存的顾客联系记录。 2)关于数据模型的信息,包括业务实体、关系、企业规则和企业数据模型。 3)关于业务数据与仓库数据结构间的映射信息。只要那些来源中的一个数据元与仓库建立了映射关系,就应该记录下这些数据元间的逻辑联系以及发生的任何变换或变动。 4)关于数据仓库中信息的使用情况。了解这类信息对更好地调整仓库性能、更多地利用现有查询以及理解仓库中的信息怎样用于解决企业问题是很重要的。 3 元数据的收集和维护 在适当的时间收集适当的元数据是成功实施元数据驱动的数据仓库的基础。为保证较高的准确

社会研究学四种研究方法认识

. ... .. . 对社会学四种研究方法的认识 社会学研究方法有四种:调查研究、实验研究、文献分析、实地调查。每一种总研究方式都有适用围,也存在一定优缺点,下面一一介绍。 调查研究的方式是指采用自填式问卷或结构式访问的方法,系统地,直接地从一个取自总体的样本那里收集量化资料,并通过对这些资料的统计分析来认识社会现象及其规律的社会研究方式,这是社会学者在实际研究中采用得最多的一种研究方式,它在整个社会研究方法体系中占存非常重要的地位。概括地说,研究容的广泛性,资料获取的及时性,描述的全面性和概括性,实际运用的普遍性等等,是调查研究方式的主要特征。询问,是调查方式中主要的资料收集方法;而抽样,问卷,统计分析则是构成调查研究方式的三个基本元素,同时也是从事调查研究的三个关键环节。 调查研究与实验研究,实地研究等方式相比,主要有以下优点:(1)调查研究的方式可以兼顾到描述和解释两种目的。它既可用来描述某一总体的概况、特征,以及进行总体各个部分之间的比较,同时,它也又可用来解释不同变量相互之间的关系;(2)调查研究方式严格,规的操作程序,使得其研究结果具较高的信度,即描述和概括事物的精确性较高;(3)调查研究还可以迅速地,高效地提供有关某一总体的丰富的资料和详细的信息,在了解和掌握不断变动的社会现 . .

象方面具有很大的优越性;(4)调查研究所具有的定量特征和通过样本反映总体的特征,使得其应用围十分广泛。 同时调查研究也有一些缺点:在探讨和分析变量之间的因果关系方面,它不及实验研究的方式那么有力。而在对事物理解和解释的深入性方面,以及在研究的效度方面,它又不及实地研究。在研究的反应性方面,它也不及文献研究的方式。同时,它所采用的自填式问卷或结构式访问的形式,无形中都限制了被调查者对问题的问答,使所得的资料比较表面化、简单化,很难深入被调查者的思想深处,很难感受到回答者思想和行为的整体生活背景在这方面,调查研究远不如实地研究。 实验研究的方法越来越多的应有于社会学调查研究中。实验是一种在高度控制的条件下,通过操纵某些因素来研究变量之间因果关系的方法在实验过程中,研究者通过引入,控制或操纵某个变量,同时观察另一个变量所发生的变化,以此来探讨不同现象之间的因果关系。从方法论上看,实验是定量研究一个特定类型,它比其他几种社会研究方式更直接地基于实证主义的背景和原理,尤其是在检验变量之间的因果关系方面,实验研究具有最强的力量。实验研究方式的本质特征在于对研究的控制,可以说没有控制就没有实验。实验需要控制场景,控制对象,控制操作程序,控制测量方法,即实验是一种需要“人工制造“的研究方式。 实验研究同样有其优缺点。实验研究的方式在建立变量之间的因

互联网大数据与传统数据仓库技术比较研究

互联网大数据与传统数据仓库技术比较研究 韩路 1.Hadoop技术简介 Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,是目前全世界最主流的大数据应用平台。以分布式文件系统(HDFS)和MapReduce为核心的Hadoop,目前已整合了其他重要组件如Hive、HBase、Spark,以及统一资源调度管理组件Yarn,形成了一个完成的Hadoop产品生态圈。 1.1.HDFS HDFS是一个分布式文件系统,可设计部署在低成本硬件上。它可以通过提供高吞吐率支持大量数据的批量处理,同时支持应用程序流式访问系统数据。 1.2.MapReduce MapReduce是一种编程模型,用于大规模数据机的并行运算。MapReduce可以将一个任务分发到Hadoop平台各个节点上并以一种可靠容错的方式并行处理大量数据集,实现Hadoop的并行任务处理功能。 1.3.Hive Hive是用于对Hadoop中文件进行数据整理、特殊查询和分析储存的工具。Hive提供了一种结构化数据的机制,支持类似传统结构化数据库中SQL元的查询语言,帮助熟悉SQL的用户查询HDFS中数据。 1.4.HBase HBase是一个分布式的、列式储存的开源数据库。HBase不同于传统关系型数据库,适合非结构化数据储存,同时可以为一个数据行定义不同的列。HBase 主要用于需要随机访问、实时读写的大数据。 1.5.Spark Spark是基于内存计算的分布式计算框架。Spark提出了RDD概念,弥补了MapReduce在并行计算各个阶段无法进行有效数据共享的缺陷。同时,Spark形成了自己的生态系统:SparkSQL、SparkStreaming、MLlib,并完全兼容Hadoop 生态系统。

数据仓库元数据管理

1.1.1 第一章元数据概论 企业的计算机系统每年会产生很多数据,很多企业面临着这样的困境,难以有效的管理大量的、繁杂的、不一致的数据,并方便地访问、利用这些数据进行辅助决策。 建立数据仓库提供一个方法,把数据转化为有用的、可信赖的信息,支持商业决策。建立数据仓库一个重要的工作是元数据管理。元数据(Metadata)就是数据的数据,用于建立、管理、维护和使用数据仓库。。元数据管理是企业级数据仓库中的关键组件,贯穿于建立数据仓库的整个过程。 元数据使得用户可以掌握数据的历史情况,如数据从哪里来?流通时间有多长?更新频率是多大?数据元素的含义是什么?对它已经进行了哪些计算、转换和筛选等等。在需求不确定情况下,在瞬间万变的商业环境下,元数据可以更好的支持需求的变化,降低项目风险。 通常把元数据分为技术元数据(Technical Metadata)和业务元数据(Business Metadata)。技术元数据是描述关于数据仓库技术细节的数据,这些元数据应用于开发、管理和维护数据仓库;业务元数据从商业和业务的角度描述数据仓库的数据,提供了良好的语义层定义,业务元数据使业务人员能够更好的理解数据仓库分析出来的数据。 元数据贯彻于建立数据仓库的整个过程,不只是ETL过程需要元数据的支持。 图1 元数据的应用 在使用元数据的同时,随着数据仓库市场的发展,业界出现许多数据仓库管理和分析的工具,各种工具使用不同的元数据标准来表示和处理,不同系统之间的迁移、数据交换变得困难。于是,我们希望用一种单一的元数据标准,使得各种组织的元数据具有单一的元模型(MetaModel),因此,需要建立一种标准使得不同的数据仓库和商业智能系统之间可以相互交换元数据。 1.1.2 第二章元数据标准 1.1. 2.1 一、元数据标准CWM OMG于2001年颁布元数据标准CWM 1.0(Common Warehouse Metamodel Version 1.0)。CWM定义一个描述数据源、数据目的、转换、分析的元数据框架,以及定义建立和管理数据仓库的过程和操作,提供使用信息的继承。 目前宣布支持CWM的厂商包括:IBM、Oracle、Hyperion、Dimension EDI、Genesis IONA、HP、NCR和Unisys等。 CWM基于3个工业标准: UML - Unified Modeling Language,OMG建模标准; MOF - Meta Object Facility,OMG建立元模型和模型库的标准,提供在异构环境下的数据交换的接口; XMI - XML Metadata Interchange,OMG元数据交换标准。 UML在CWM中得到充分的应用,担任3个不同的角色: 1),UML用来做为与MOF对应的meta-metamodel。UML相当于MOF Model,,UML Notation和OCL(Object Constraint Language),被用来做为建模语言、图形符号、约束语言,

材料分析方法课后习题答案

第十四章 1、波谱仪和能谱仪各有什么优缺点 优点:1)能谱仪探测X射线的效率高。 2)在同一时间对分析点内所有元素X射线光子的能量进行测定和计数,在几分钟内可得到定性分析结果,而波谱仪只能逐个测量每种元素特征波长。 3)结构简单,稳定性和重现性都很好 4)不必聚焦,对样品表面无特殊要求,适于粗糙表面分析。 缺点:1)分辨率低。 2)能谱仪只能分析原子序数大于11的元素;而波谱仪可测定原子序数从4到92间的所有元素。 3)能谱仪的Si(Li)探头必须保持在低温态,因此必须时时用液氮冷却。 分析钢中碳化物成分可用能谱仪;分析基体中碳含量可用波谱仪。 2、举例说明电子探针的三种工作方式(点、线、面)在显微成分分析中的应用。 答:(1)、定点分析:将电子束固定在要分析的微区上用波谱仪分析时,改变分光晶体和探测器的位置,即可得到分析点的X射线谱线;

用能谱仪分析时,几分钟内即可直接从荧光屏(或计算机)上得到微区内全部元素的谱线。 (2)、线分析:将谱仪(波、能)固定在所要测量的某一元素特征X射线信号(波长或能量)的位置把电子束沿着指定的方向作直线轨迹扫描,便可得到这一元素沿直线的浓度分布情况。改变位置可得到另一元素的浓度分布情况。 (3)、面分析:电子束在样品表面作光栅扫描,将谱仪(波、能)固定在所要测量的某一元素特征X射线信号(波长或能量)的位置,此时,在荧光屏上得到该元素的面分布图像。改变位置可得到另一元素的浓度分布情况。也是用X射线调制图像的方法。 3、要在观察断口形貌的同时,分析断口上粒状夹杂物的化学成分,选用什么仪器用怎样的操作方式进行具体分析 答:(1)若观察断口形貌,用扫描电子显微镜来观察:而要分析夹杂物的化学成分,得选用能谱仪来分析其化学成分。 (2)A、用扫描电镜的断口分析观察其断口形貌:

数据挖掘与数据仓库课程简介

数据挖掘与数据仓库课程简介 英文名:Data Mining and Data Warehouse 开课单位:计算机学院 课程编码:203086 学分学时:学分,学时32(含实验10) 授课对象:计算机科学与技术专业方向选修课 先修课程:数据库 课程目的和主要内容: 通过本课程的学习,学生应能理解数据库技术的发展为何导致需要数据挖掘,以及数据挖掘潜在应用的重要性;掌握数据仓库和多维数据结构,OLAP(联机分析处理)的实现以及数据仓库与数据挖掘的关系;熟悉数据挖掘之前的数据预处理技术;了解定义数据挖掘任务说明的数据挖掘原语;掌握数据挖掘技术的基本算法,为将来从事数据仓库的规划和实施以及数据挖掘技术的研究工作打下一定的基础。 主要内容包括数据仓库和数据挖掘的基本知识;数据清理、数据集成和变换、数据归约以及离散化和概念分层等数据预处理技术;DMQL数据挖掘查询语言;用于挖掘特征化和比较知识的面向属性的概化技术、用于挖掘关联规则知识的基本Apriori算法和它的变形、用于挖掘分类和预测知识的判定树分类算法和贝叶斯分类算法以及基于划分的聚类分析算法等;了解先进的数据库系统中的数据挖掘方法,以及对数据挖掘和数据仓库的实际应用问题展开讨论。 参考教材: 《数据挖掘概念与技术》,机械工业出版社,JiaWei Han,Micheline Kamber著,范明等译 参考和阅读书目: 《Data Mining: Concepts and Techniques》Jiawei Han and Micheline Kamber, Morgan Kaufmann, 2000 《机器学习》,Tom Mitchell著,曾华军等译 《SQLServer2000数据挖掘技术指南》,机械工业出版社,Claude Seidman著,刘艺等译 数据挖掘与数据仓库教学大纲 一、课程概况 英文名:Data Mining and Data Warehouse 开课单位:计算机学院 课程编码:203086 学分学时:学分,学时32(含实验10) 授课对象: 先修课程:数据库 课程目的和主要内容: 通过本课程的学习,学生应能理解数据库技术的发展为何导致需要数据挖掘,以及数据

数据仓库元数据管理

数据仓库元数据管理 余友波 数据仓库之路原创资料 https://www.sodocs.net/doc/ae12318725.html,

1.1.1 第一章元数据概论 企业的计算机系统每年会产生很多数据,很多企业面临着这样的困境,难以有 效的管理大量的、繁杂的、不一致的数据,并方便地访问、利用这些数据进行辅助 决策。 建立数据仓库提供一个方法,把数据转化为有用的、可信赖的信息,支持商业 决策。建立数据仓库一个重要的工作是元数据管理。元数据(Metadata)就是数据 的数据,用于建立、管理、维护和使用数据仓库。。元数据管理是企业级数据仓库 中的关键组件,贯穿于建立数据仓库的整个过程。 元数据使得用户可以掌握数据的历史情况,如数据从哪里来?流通时间有多长?更新频率是多大?数据元素的含义是什么?对它已经进行了哪些计算、转换和筛选等等。在需求不确定情况下,在瞬间万变的商业环境下,元数据可以更好的支持需求的变化,降低项目风险。 通常把元数据分为技术元数据(Technical Metadata)和业务元数据(Business Metadata)。技术元数据是描述关于数据仓库技术细节的数据,这些元数据应用于开发、管理和维护数据仓库;业务元数据从商业和业务的角度描述数据仓库的数据,提供了良好的语义层定义,业务元数据使业务人员能够更好的理解数据仓库分析出来的数据。 元数据贯彻于建立数据仓库的整个过程,不只是ETL过程需要元数据的支持。 图1 元数据的应用 在使用元数据的同时,随着数据仓库市场的发展,业界出现许多数据仓库管理 和分析的工具,各种工具使用不同的元数据标准来表示和处理,不同系统之间的迁 移、数据交换变得困难。于是,我们希望用一种单一的元数据标准,使得各种组织 的元数据具有单一的元模型(MetaModel),因此,需要建立一种标准使得不同的 数据仓库和商业智能系统之间可以相互交换元数据。 https://www.sodocs.net/doc/ae12318725.html,

(整理)数据仓库与元数据管理

数据仓库与元数据管理 1. 前言 在事务处理系统中的数据,主要用于记录和查询业务情况。随着数据仓库(DW)技术的不断成熟,企业的数据逐渐变成了决策的主要依据。数据仓库中的数据是从许多业务处理系统中抽取、转换而来,对于这样一个复杂的企业数据环境,如何以安全、高效的方式来对它们进行管理和访问就变得尤为重要。解决这一问题的关键是对元数据进行科学有效的管理。 本文首先介绍了元数据的定义、作用和意义;然后讨论了数据仓库系统中元数据管理的现状和关于元数据的标准化情况;最后提出了建立元数据管理系统的步骤和实施方法。 2. 元数据 2.1 元数据的概念 按照传统的定义,元数据(Metadata)是关于数据的数据。在数据仓库系统中,元数据可以帮助数据仓库管理员和数据仓库的开发人员非常方便地找到他们所关心的数据;元数据是描述数据仓库内数据的结构和建立方法的数据,可将其按用途的不同分为两类:技术元数据(Technical Metadata)和业务元数据(Business Metadata)。 技术元数据是存储关于数据仓库系统技术细节的数据,是用于开发和管理数据仓库使用的数据,它主要包括以下信息: ●数据仓库结构的描述,包括仓库模式、视图、维、层次结构和导出数据的定义, 以及数据集市的位置和内容; ●业务系统、数据仓库和数据集市的体系结构和模式 ●汇总用的算法,包括度量和维定义算法,数据粒度、主题领域、聚集、汇总、 预定义的查询与报告; ●由操作环境到数据仓库环境的映射,包括源数据和它们的内容、数据分割、数 据提取、清理、转换规则和数据刷新规则、安全(用户授权和存取控制)。 业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统

几种分析法的优缺点

主成分分析就是将多项指标转化为少数几项综合指标,用综合指标来解释 多变量的方差- 协方差结构。综合指标即为主成分。所得出的少数几个主成分,要尽可能多地保留原始变量的信息,且彼此不相关。 因子分析是研究如何以最少的信息丢失,将众多原始变量浓缩成少数几个因子变量,以及如何使因子变量具有较强的可解释性的一种多元统计分析方法。 聚类分析是依据实验数据本身所具有的定性或定量的特征来对大量的数据迚行分组归类以了解数据集的内在结构,并且对每一个数据集迚行描述的过程。其主要依据是聚到同一个数据集中的样本应该彼此相似,而属于不同组的样本应该足够不相似。 三种分析方法既有区别也有联系,本文力图将三者的异同迚行比较,并举例说明三者在实际应用中的联系,以期为更好地利用这些高级统计方法为 研究所用有所裨益。 二、基本思想的异同 (一) 共同点 主成分分析法和因子分析法都是用少数的几个变量(因子) 来综合反映原始变量(因子) 的主要信息,变量虽然较原始变量少,但所包含的信息量却占原始信息的85 %以上,所以即使用少数的几个新变量,可信度也很高,也可以有效地解释问题。并且新的变量彼此间互不相关,消除了多重共线性。这两种分析法得出的新变量,并不是原始变量筛选后剩余的变量。在主成分分析中,最终确定的新变量是原始变量的线性组合,如原始变量为x1 ,x2 ,. . . ,x3 ,经过坐标变换,将原有的p个相关变量xi 作线性变换,每个主成分都是由原有p 个变量线性组合得到。在诸多主成分Zi 中,Z1 在方差中占的比重最大,说明它综合原有变量的能力最强,越往后主成分在方差中的比重也小,综合原信息的能力越弱。因子分析是要利用少数几个公共因子去解释较多个要观测变量中存在的复杂关系,它不是对原始变量的重新组合,而是对原始变量迚行分解,分解为公共因子与特殊因子两部分。公共因子是由所有变量共同具有的少数几个因子;特殊因子是每个原始变量独自具有的因子。对新产生的主成分变量及因子变量计算其得分,

数据仓库和BI技术概况

1.数据仓库 1.1.概念 数据仓库项目是以关系数据库为依托,以数据仓库理论为指导、以OLAP为多层次多视角分析,以ETL工具进行数据集成、整合、清洗、加载转换,以前端工具进行前端报表展现浏览,以反复叠代验证为生命周期的综合处理过程。最终目标是为了达到整合企业信息信息,把数据转换成信息、知识,提供决策支持。 1.2.数据源 数据库、磁带、文件、网页等等。同一主题的数据可能存储在不同的数据库、磁带、甚至文件、网页里都有。 1.3.数据粒度 粒度问题第一反应了数据细化程度;第二在决策分析层面粒度越大,细化程度越低。一般情况,数据仓库需求存储不同粒度的数据来满足不同层面的要求。 例子如顾客的移动话费信息。 1.4.数据分割 分割结构相同的数据,保证灵活的访问数据。 1.5.设计数据仓库 ●与OLTP系统的接口设计:ETL设计 ●数据仓库本身存储模型的设计:数据存储模型设计 1.6.ETL设计难点 数据仓库有多个应用数据源,导致同一对象描述方式不同: ●表达方式不同:字段类型不同 ●度量方式不同:单位不同 ●对象命名方式不同:字段名称不同 ●数据源的数据是逐步加载到数据仓库,怎么确定数据已经加载过 ●如何避免对已经加载的数据的读取,提高性能 ●数据实时发生变化后怎么加载

2.数据存储模型 过程模型:适用于操作性环境。 数据模型:适用于数据仓库和操作性环境。 数据模型从设计的角度分:高层次模型(实体关系型),中间层建模(数据项集),物理模型。 2.1.数据仓库的存储方式 数据仓库的数据由两种存储方式:一种是存储在关系数据库中,另一种是按多维的方式存储,也就是多维数组。 2.2.数据仓库的数据分类 数据仓库的数据分元数据和用户数据。 用户数据按照数据粒度分别存放,一般分四个粒度:早期细节级数据,当前细节级数据,轻度综合级,高度综合级。 元数据是定义了数据的数据。传统数据库中的数据字典或者系统目录都是元数据,在数据仓库中元数据表现为两种形式:一种是为了从操作型环境向数据仓库环境转换而建立的元数据,它包含了数据源的各种属性以及转换时的各种属性;另一种元数据是用来与多维模型和前端工具建立映射用的。 2.3.数据存储模型分类 多维数据建模以直观的方式组织数据,并支持高性能的数据访问。每一个多维数据模型由多个多维数据模式表示,每一个多维数据模式都是由一个事实表和一组维表组成的。 多维模型最常见的是星形模式。在星形模式中,事实表居中,多个维表呈辐射状分布于其四周,并与事实表连接。 在星型的基础上,发展出雪花模式。通常来说,数据仓库使用星型模型。 2.3.1.星型模型 位于星形中心的实体是指标实体,是用户最关心的基本实体和查询活动的中心,为数据仓库的查询活动提供定量数据。每个指标实体代表一系列相关事实,完成一项指定的功能。 位于星形图星角上的实体是维度实体,其作用是限制用户的查询结果,将数据过滤使得从指标实体查询返回较少的行,从而缩小访问范围。每个维表有自己的属性,维表和事实表通过关键字相关联。 星形模式虽然是一个关系模型,但是它不是一个规范化的模型。在星形模式中,维度表被故意地非规范化了,这是星形模式与OLTP系统中的关系模式的基本区别。 使用星形模式主要有两方面的原因:提高查询的效率。采用星形模式设计的数据仓库的优点是由于数据的组织已经过预处理,主要数据都在庞大的事实表中,所以只要扫描事实表

相关主题