当前位置：搜档网 › 基于SQLServer2005的数据挖掘的研究

基于SQLServer2005的数据挖掘的研究

计算机与现代化

　2010年第5期

J I S U A N J IY U X I A N D A I H U A

总第177期

文章编号:1006-2475(2010)05-0195-04

收稿日期:2009-11-23作者简介:黄兴荣(1972-),男,广西浦北人,徐州建筑职业技术学院电子与信息工程系讲师,硕士,研究方向:软件工程和数据挖掘;李昌领(1966-),男,江苏铜山人,讲师,博士研究生,研究方向:软件工程和虚拟现实。

基于S Q L S e r v e r 2005的数据挖掘的研究

黄兴荣,李昌领

(徐州建筑职业技术学院电子与信息工程系,江苏徐州221116)

摘要:提高数据挖掘的效率是目前信息技术研究的热点问题之一。介绍了数据挖掘的概念、过程模型以及体系结构,讨论了基于M i c r o s o f t S Q LS e r v e r 2005的数据挖掘方案和采用S Q LS e r v e r 分析服务实现数据挖掘的相关技术。采用S Q L S e r v e r 分析服务的数据挖掘,实现了数据挖掘、数据仓库与应用程序的紧密耦合,从而大大提高了数据挖掘的效率。关键词:数据挖掘;S Q LS e r v e r 2005;数据挖掘方案;S Q LS e r v e r 分析服务

中图分类号:T P 311 文献标识码:A d o i :10.3969/j .i s s n .1006-2475.2010.05.053

R e s e a r c ho nD a t a Mi n i n g B a s e d o nS Q LS e r v e r 2005

H U A N GX i n g -r o n g ,L I C h a n g -l i n g

(D e p a r t m e n t o f E l e c t r o n i c s a n d I n f o r m a t i o nE n g i n e e r i n g ,X u z h o u I n s t i t u t e o f A r c h i t e c t u r a l T e c h n o l o g y ,X u z h o u 221116,C h i n a )A b s t r a c t :T h e e f f i c i e n c y o f d a t a m i n i n g i s a h o t p r o b l e mo f i n f o r m a t i o n t e c h n o l o g y r e s e a r c h a t p r e s e n t .T h e c o n c e p t ,p r o c e s s m o d -e l a n ds y s t e m a t i c s t r u c t u r e o f d a t a m i n i n g a r e i n t r o d u c e d .D a t a m i n i n g p r o g r a m s a n d t h e r e l a t e dt e c h n o l o g i e s b a s e do nM i c r o s o f t S Q LS e r v e r 2005a r ed i s c u s s e d .I m p l e m e n t a t i o no f s y s t e ma d o p t s S Q LS e r v e r a n a l y s i s s e r v i c e s ,a s a r e s u l t ,t i g h t n e s s c o u p l i n g o f d a t a m i n i n g ,d a t a w a r e h o u s e a n da p p l i c a t i o n ,i m p r o v e s e f f i c i e n c y o f d a t a m i n i n g .

K e y w o r d s :d a t a m i n i n g ;S Q LS e r v e r 2005;d a t a m i n i n g p r o g r a m ;S Q LS e r v e r a n a l y s i s s e r v i c e s

0　引　言

数据挖掘(D a t a M i n i n g ,D M )是致力于数据分析

和理解、揭示数据内部蕴藏知识的技术,被广泛地运用于科研和商业智能上。通常,数据挖掘使用自动化或半自动化的工具来分析数据和挖掘隐含的模式,以提高数据挖掘的效率。目前,常见的数据挖掘软件工

具都提供了常规的挖掘过程和挖掘模式[1]

。

基于M i c r o s o f t S Q L S e r v e r 2005的数据挖掘技术是对于数据挖掘理论的一种实现,它在商业智能(B u s i n e s s I n t e l l i g e n c e ,B I )方面提供了三大服务和一

个工具来实现系统的整合[2]

。其中,集成服务(S Q L S e r v e r I n t e g r a t i o n S e r v i c e s ,S S I S )用于数据抽取、数据整合;分析服务(S Q LS e r v e r A n a l y s i s S e r v i c e s ,S S A S )提供了强大的多维数据分析和处理引擎、多种数据挖掘算法,以及功能丰富的服务器和客户端组件,用于联机分析处理、数据挖掘;报表服务(S Q LS e r v e r R e -p o r t i n g S e r v i c e s ,S S R S )用于自定义报表、数据展现;以

上的三方面服务都整合于B I S t u d i o 的体系结构中。

在V i s u a l S t u d i o 2005中,内置了A n a l y s i s S e r v i c e s 项目模板和提供了各种可视化向导工具来帮助管理A -n a l y s i s S e r v i c e s 数据库,能够方便快捷地完成各种挖掘任务。同时,通过.N E TF r a m e w o r k 中的A D O M D .N E T 接口能够方便地访问和操控A n a l y s i s S e r v i c e s 数据库对象,从而为客户端智能应用程序开发提供了有力支持。可见,基于S Q LS e r v e r s 2005的数据挖掘与传统数据挖掘应用程序相比较,具有便捷、高效的优势。本文将对数据挖掘的概念、过程模型、体系结构、算法和基于S Q LS e r v e r 2005的数据挖掘方案、技术进行详细阐述。

1　数据挖掘技术

1.1数据挖掘的概念

数据挖掘是从大量不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的人们事先不知道但又有潜在的有用的信息和知识的过程。这些信息可

196　计　算　机　与　现　代　化2010年第5期

能有潜在价值,支持决策,可以为企业带来利益,或者为科学研究寻找突破口。数据挖掘利用各种分析方法和分析工具在大规模海量数据中建立模型和发现数据间关系,是现有的人工智能、数理统计、数据库等等成熟技术在特定系统中具体的应用。数据挖掘的常用方法包括关联分析、分类和预测、聚类、检测离群

点、趋势和演变分析等[3-5]

。数据挖掘是数据库中的知识发现中的一个主要步骤。知识发现过程分为5部分:数据选择、数据预处理、数据转换、数据挖掘及结果的解释和评估[6-7]

。

1.2数据挖掘过程模型

由于每一种数据挖掘技术方法都有其自身的特点和实现步骤,又与其具体应用问题有密切相关性。因此,数据挖掘过程是一件很复杂的事情。常用的数据挖掘过程模型有3个,其中的C R I S P -D M (C r o s s -I n -d u s t r y S t a n d a r d P r o c e s s f o r D a t a M i n i n g )过程模型将整个挖掘过程分为以下的阶段:业务理解、数据理解、数

据准备、建模、评估和部署实施[2]

。图1为C R I S P -D M 过程模型的示意

。

图1　C R I S P -D M 模型

1.3数据挖掘体系结构

一般来说,数据挖掘的体系结构如图2所示。数据挖掘工具将从数据仓库、数据库及平面文件中提取

数据;挖掘库是数据挖掘体系结构的核心部分。在挖掘库中存放了数据挖掘项目需要的数据、算法库和知识库。在算法中存放了已经实现的挖掘算法,在知识库中存放着预先定义的和经过挖掘后的发现的知识。此外,通常数据挖掘工具也提供编程A P I ,让用户可以对算法进行改进,实现算法嵌入到用户的界面系统中

。

图2　数据挖掘的体系结构

1.4决策树

数据挖掘的核心是算法。在挖掘算法中,决策树

算法是分类发现算法中最常见的一种算法[8-10]

。在

对数据进行处理过程中,将数据按树状结构分成若干

分枝形成决策树,每个分枝包含数据元组的类别归属共性,从每个分枝中提取有用的信息形成规则。决策树算法围绕决策树的两个阶段展开。第一阶段,决策树构建:通过递归的算法将训练集生成一棵决策树。第二阶段,由测试数据检验生成的决策树,消除由于统计噪声或数据波动对决策树的影响来达到净化树的目的,得到一棵正确的决策树。

2　S Q LS e r v e r 数据挖掘方案

2.1S Q L S e r v e r 数据挖掘方案的构成

S Q L S e r v e r 数据挖掘方案是按照C R I S P -D M 过程模型来进行构建,并为一些关键的步骤提供了相关的工具,该数据挖掘方案如图3所示[1-2]

。图中表示了数据挖掘中的一些关键过程,以及实施关键步骤需要使用的组件。S Q L S e r v e r 把B u s i n e s s I n t e l l i g e n c e D e v e l o p -m e n t S t u d i o 作为创建和使用数据挖掘模型的集成环境,此环境包括数据挖掘算法和工具,使用这些算法和工具易于生成用于各种项目的综合解决方案。

图3　S Q LS e r v e r 数据挖掘的过程及其使用的工具

其中,准备数据使用S S I S 来完成。浏览数据使

用数据源视图(D a t a S o u r c e V i e w )设计器来完成。创建模型使用挖掘向导或者直接书写D M X (D a t a M i n -i n g E x t e n s i o n ,数据挖掘查询语言)语句来完成。定义完挖掘模型的结构之后,需要对其进行处理,使用说明模型的模式来填充空结构,这称为“定型”模型。模式是通过利用数学算法计算原始数据而得到的。2.2S Q L S e r v e r 数据挖掘算法

数据挖掘过程的核心是算法,算法决定了如何分

析数据挖掘模型的实例。数据挖掘算法提供了分类、分段的能力,并结合和分析数据挖掘过程中得到的数据能够提供实例集的预测、可变、可能性的信息。

　2010年第5期黄兴荣等:基于S Q LS e r v e r2005的数据挖掘的研究197

S Q LS e v e r针对可生成的每种模型包含一种不同的算法,可以使用参数调整每种算法。S S A S提供了9种算法作为挖掘工具,包括决策树算法、聚类分析算法、N a v e B a y e s算法等[1-2]。

其中,M i c r o s o f t决策树算法由M i c r o s o f t S Q L S e r v-e r A n a l y s i s S e r v i c e s提供的分类和回归算法,用于对离散和连续属性进行预测性建模。对于离散属性,该算法根据数据集中输入列之间的关系进行预测。决策树根据朝向特定结果发展的趋势进行预测。对于连续属性,该算法使用线性回归确定决策树的拆分位置。该算法原理是[5]:通过在树中创建一系列拆分来生成数据挖掘模型。这些拆分以“节点”来表示。每当发现输入列与可预测列密切相关时,该算法便会向该模型中添加一个节点。该算法确定拆分的方式不同,主要取决于它预测的是连续列还是离散列。

3　基于S Q LS e r v e r2005分析服务实现

数据挖掘

S Q LS e r v e r2005中包含了数据挖掘特性,S Q L S e r v e r的分析服务采用开放的体系结构,是一整套的数据挖掘引擎和工具,无缝集成了多种符合O L ED B f o r D a t a M i n i n g规范和预测模型标记语言(P M M L)的数据挖掘算法[11-13]。分析服务的访问通过图形用户界面工具,它可以访问数据挖掘和联机分析处理两种形式的决策支持机制,能够直接从数据挖掘仓库中进行挖掘操作,实现数据挖掘与数据仓库、应用程序的紧密耦合,从而大大提高数据挖掘效率。

3.1设计和创建数据仓库

基于S Q LS e r v e r2005的数据挖掘是对于数据库、数据仓库中的数据进行分析和处理。在数据仓库中,最常用的数据模型是星型模型和雪花模型。在星型模型中,事实表居中,维表分布于其四周,并与事实表连接。雪花模型是对于星型的进一步层次化,将某些维表扩展成事实表[14]。

在本文中以f o o d m a r t.m d b数据库作为业务数据,它是一家大型的食品连锁店的经营业务所产生的数据,包括了客户管理数据、销售数据、分销数据和库存数据等。在此,采用雪花型结构来构建该销售业务的数据仓库。其中,数据表划分为两类,一类是事实数据表,用来存储数据仓库中的实际数据;另一类是维度数据表,用来存储数据仓库中的维度数据。然后,通过数据库管理系统(D B M S)来建立数据仓库f o o d m a r t s a l e s D W。3.2设计和使用E T L

E T L(E x t r a c t-T r a n s f o r m-L o a d)是从源文件或源数据库中获取数据,并经过提取、转换和集成后,将其加载到数据仓库的过程。在此,E T L过程通过使用S S I S 服务来实现,从而实现把数据从f o o d m a r t.m d b数据库提取、转换、加载到f o o d m a r t s a l e s D W数据仓库中。3.3创建O L A P多维数据集

数据挖掘模型可以用多种方法来创建,利用A-n a l y s i s S e r v i c e s模型向导,或者其它能够创建A n a l y s i s S e r v i c e s数据模型的应用软件。S Q LS e r v e r2005的A n a l y s i s S e r v i c e s支持基于O L A P多维数据集模型。多维数据集是指对数据的多维分析,是针对数据仓库中提取的子集,也称为数据集市。

多维数据集的创建和管理可以利用A n a l y s i s S e r v i c e s服务实现;或是利用D M X中的C R E A T E O L A P M I N I N G M O D E L语句来创建一个基于O L A P 数据立方的挖掘模型。其语句如下:

C R E A T EO L A PM I N I N GM O

E L

F R O M ()U S I N G

在这里指定了所构建模型的名字,这个模型的物理位置通过M i n i n g L o c a t i o n特性来表示;是包含模型的测试案例C u b e的名字;包括了创建模型的算法的名字。

3.4创建和使用报表

根据数据仓库中的事实表和维表,对数据仓库中数据可以进行多维化表示。采用的方法是对多维数据进行切片、切块、钻取和旋转等操作,实现从不同角度提取有关数据。通过对多维数据集进行全方位的操作,可以获取基于多维数据集的报表。报表可以使用S S R S报表来实现;也可以通过透视表服务(P i v o t-T a b l e s S e r v i c e)提供的接口,采用D M X语句来完成对生成的多维数据集的查询。

3.5使用数据挖掘获取商业智能

数据挖掘对查找和描述多维数据集中的隐藏模式非常有用。在此,使用数据挖掘技术从营业数据中发现影响客户会员卡级别的因素。将创建一个数据挖掘模型以训练销售数据,并使用“决策树”算法在客户群中找出会员卡选择模式。

3.5.1创建挖掘结构

实现数据挖掘要在A n a l y s i s S e r v i c e s解决方案的基础上进行。数据挖掘所依赖的数据可以来源于业

198　计　算　机　与　现　代　化2010年第5期