数据仓库产品优缺点分析及技术发展展望
数据仓库产品优缺点分析及技术发展展望
2011年1月,全球IT研究与顾问咨询公司Gartner发布了“2010数据仓库数据库管理系统魔力象限”(Magic Quadrant for Data Warehouse Database Management Systems)报告,此报告对2010年数据仓库领域的16种主要产品进行的整体描述。魔力象限通过分析产品技术、市场份额、客户反应等要素,将数据仓库产品分为领导者、挑战者、有远见者和特定领域者。从报告中可以较客观地得出各数据仓库产品的优势和不足,以及未来技术发展方向,为企业的数据仓库选型提供参考。
图1 2010年数据仓库数据库管理系统魔力象限
一、数据仓库产品分析
受资料所限,本文重点对报告中的领导者象限产品进行分析,其他产品在国内应用较少,这里只做简单说明。
1.Teradata
Teradata近几年一直处于数据仓库领导者地位,我行数据仓库也采用Teradata产品。Teradata数据仓库产品线丰富,能够适应各种规模的数据仓库。产品主要是集成的专用数据库设备(集成了服务器、存储、操作系统和数据库),有单节点系列(面向开发和测试)、1系列(面向大规模数据存储分析)、2系列(面向部门级数据仓库)、4系列(采用固态硬盘,面向高速分析)、5系列(面向企业级数据仓库)。
Teradata的数据仓库解决方案齐全,以前一直走“高端策略”,在大规模企业级数据仓库客户中占有绝对优势。不过,在其他产品的竞争下,逐渐向中端客户领域扩展。
产品优势:
●大数据量处理性能较强
●可线性扩展,实现投资保护
●数据库易于管理和维护
●第三方软件产品丰富
产品不足:
●专用设备,环境搭建复杂,扩展时停机时间较长
●混合负载控制存在问题
●各系列产品互联困难
●价格较高
2.Oracle Exadata
将无关数据快速过滤,解决了传统数据仓库产品的服务器和存储间数据流瓶颈问题,实现高性能数据处理。
产品优势:
●针对数据分析设计,性价比高
●兼容Oracle语句及主流BI工具
●系统易于管理和维护
●刀片式架构,扩展简单
产品不足:
●混合负载控制存在不足
●流技术主要适用于趋势分析,对于精确分析略显不足
3.Sybase
Sybase提供独立的数据库软件Sybase IQ 和集成的数据仓库设备两种解决方案,Sybase IQ 的核心技术是“列存储”,此技术被证明更适合于数据仓库。首先,数据仓库一般只访问记录的部分字段,因此磁盘访问时可以不读取整条记录,只读取需要的字段,大大减少了I/O;其次,“列存储”可以获得比传统数据库更高的压缩比,在海量数据仓库中能节省大量空间;最后,由于查询中的选择条件是通过列来定义的,因此整个数据库能够实现自动索引。
产品优势:
●“列存储”技术
●混合负载控制较好
●并行查询及扩展能力强
●集成数据挖掘工具,适合实时分析
产品不足:
●列存储的一些问题(如载速度、复杂查询等方面较差)
●硬件厂商和第三方软件支持力度正在减弱
4.GreenPlum
GreenPlum近几年异军突起,以其独特的技术与传统数据仓库产品相抗衡。2010年被EMC收购后,产品线进一步完善,提供独立的数据库软件和集成的数据仓库设备两种解决方案。
GreenPlum将SQL和MapReduce功能整合到统一的数据处理框架中,利用MPP架构的并行计算能力满足大规模数据存储和处理需求。产品的一大特色是可与任何基于MapReduce的外部产品协同工作,容易实现当下流行的“云计算”架构;另一大特色是用户可以自行选择开放平台PC服务器搭建海量数据处理环境,降低数据仓库的TCO。
产品优势:
●支持行列混合存储,消除了单独行存储和列存储的缺陷
●可在线扩容和维护,无需停机
●数据加载速度快,可实现实时分析
●基于PosgreSQL开发,工具和应用资源丰富
●符合“云计算”发展方向
产品不足:
●使用开放平台实现,稳定性相对较差
●大数据量在节点间重分布时,其非专用网络设计易导致性能瓶颈
5.其他产品
产品解决方案产品优势产品不足
Infob right 集成的
列存储
数据库
设备和
压缩数
据库产
品,有开
源版本
和商用
版本
●开源的列存储数
据库,第三方软件
丰富
●兼容MySQL产品
和工具,移植性较
高
●利用“元数据知识
网格”技术减少数
据包以获取更高
的性能
●机器数据(如“点
击流”)分析方面
有优势
●技术需要再
不断完善
●混合负载功
能缺乏
Illum inate 集成的
数据仓
库设备
和BI工
具
●独特的元数据技
术可以在数据加
载时自动创建和
维护数据间关系,
自动消除数据冗
●内部模型复
杂、封闭,
外部对其产
品和技术了
解较少
余及对关联的数据进行预连接,查询速度快
●部署简单,易于使用●第三方软件支持较少
Aster Data 提供集
成的MPP
数据库
设备和
库内分
析工具
●基于MapReduce
开发,对云计算支
持较好
●支持行列混合存
储
●扩展性较好
●产品不成
熟,如表管
理可能导致
性能问题,
混合负载控
制能力较差
●没有较完整
的解决方案
及文档,应
用市场较小
1010d ata 提供基
于SAAS
的数据
仓库和
BI解决
方案
●基于SaaS模式
(投资少、部署简
单)
●数据分析速度较
快
●SAAS分析的
劣势,如安
全性、远程
访问、大数
据量传输性
能问题
●不能满足企业自己实施数据仓库的需要,系统只能由公司搭建和维护
Ingre s 提供开
源的数
据库软
件
●开源数据仓库,技
术成熟,第三方软
件支持较好
●能够使用X86开
放平台搭建,在大
内存支持下性能
较好
●面向实时任
务环境,最
大只支持
2TB数据
●数据仓库实
施经验少,
缺少有效的
数据模型
●存储管理和
混合负载管
理较差
Kogni tio 提供数
据仓库
设备和
数据仓
●基于SaaS模式,
在此之上的
DaaS(数据即服
务)模型能够很好
●大型数据仓
库实施案例
较少
●数据库的高
库SAAS 服务
的支持客户构建、
管理数据仓库
●数据库产品WX2
在大内存支持下
查询和加载速度
较好
可用较差
●第三方软件
支持较少
Micro soft 提供MPP
数据库
软件和
数据仓
库SAAS
服务
●基于SaaS模式
●价格优势
●第三方软件支持
较好
●数据库只能
运行在WIN
平台
●性能和高可
用性较差
ParAc cel 提供软
件解决
方案,包
括列存
储数据
库和存
储管理
软件
●磁盘和内存协同
技术使数据处理
性能表现出色
●在特殊领域分析
模型(如信用卡欺
诈)有优势
●一般与第三方BI
厂商提供集成的
解决方案
●软件不够完
善,高可用
性较差
●客户支持力
度不足,产
品问题解决
不及时
SAND Techn ology 提供列
存储数
据库软
件
●独特的数据标示
和压缩技术增强
了列存储模型,
适合数据分析和
归档
●集成文本搜索等
数据挖掘功能
●一般与第三方BI
厂商提供集成的
解决方案
●列存储的劣
势
●前端界面不
友好
Verti ca 提供列
存储数
据库软
件
●磁盘和内存协同
技术提供了高性
能和高可用性
●提供多样的实施
模型,模型基本
无需优化
●基于云架构、
MapReduce、
Hadoop的产品架
构
●FlexStore技术
●混合负载技
术不能满足
大型数据仓
库的要求
●限于小企业
和小数据量
(如数据集
市)分析
提升了加载和查
询性能,并实现
冷热数据的三级
存储归档策略
二、数据仓库产品技术发展趋势
从上面的分析可以看出,每个数据仓库产品都有自己的技术优势和客户群体,同时也表明了数据仓库未来的一些技术发展方向,主要有以下三个方面:
1.集成的数据仓库设备(一体机)将成为主流
超过50%的数据仓库厂商提供了数据仓库一体机解决方案,而且越来越多的厂商正在计划加入了这个阵营。一体机集成了服务器、存储和软件,具有安装、配置、管理简单,软硬件协同、高可用性及性能可以最大限度得到同一厂商的保证。根据Gartner预测,未来数据仓库将有70%会采用一体机建设。
2.行列混合存储技术将给数据仓库带来一次技术革新
单纯的行存储或列存储在使用上均不能很好的满足数据仓库分析的要求,混合存储技术可以根据数据仓库的访问特点有针对性的改变数据存储结构,在应用不做任何调整的情况下大幅提升系统运行效率,减少空间占用,对于大型数据仓库有重要意义。
3.云计算给数据仓库和BI带来新的启示
目前数据仓库发展的障碍之一是用户无法方便地搭建个性化数据
分析环境,从而减弱了用户理解和使用数据仓库的热情。云计算技术很好地解决了这一问题,可按需定制资源、易于扩展的特点将使数据仓库变为一种服务(DaaS)。用户不但能方便的访问数据仓库数据,而且可以根据业务分析特点选用“云计算”中丰富的BI工具,使数据分析更加高效,有巨大的发展潜力。
三、未来两年数据仓库发展展望
大型数据仓库的数据量已经达到了一个颠覆传统信息管理方式的阶段,因此,数据仓库将从传统的信息存储平台转向分析管理平台,换句话说,数据仓库的存储和访问将转变为交付和理解,数据仓库的价值挖掘逐渐拉开帷幕。
数据仓库“理念”也正在发生变化,一方面从支持传统BI的信息库演化成为支持运营分析、企业管理等新应用的分析基础架构;另一方面,数据仓库的ETL工作负载中会逐渐增加在线事务处理(OLTP),数据加载和供给会接近实时。
数据仓库产品将演变成一种可以解决新的信息类型和信息资产的平台,这将促使新的技术产生(如操作型商业智能),以便支持更加灵活的数据管理、查询分析以及任务集成。
正如Gartner宣称的,数据仓库未来两年将迎来它自问世后最重要的一个转折点。