搜档网
当前位置:搜档网 › 基于SQLServer2005的数据挖掘的研究_黄兴荣

基于SQLServer2005的数据挖掘的研究_黄兴荣

基于SQLServer2005的数据挖掘的研究_黄兴荣
基于SQLServer2005的数据挖掘的研究_黄兴荣

计算机与现代化 2010年第5期

JIS UAN JI YU X IAN DA I H UA

总第177期

文章编号:1006 2475(2010)05 0195 04

收稿日期:2009 11 23

作者简介:黄兴荣(1972 ),男,广西浦北人,徐州建筑职业技术学院电子与信息工程系讲师,硕士,研究方向:软件工程和数据挖掘;李昌领(1966 ),男,江苏铜山人,讲师,博士研究生,研究方向:软件工程和虚拟现实。

基于SQL Server 2005的数据挖掘的研究

黄兴荣,李昌领

(徐州建筑职业技术学院电子与信息工程系,江苏徐州221116)

摘要:提高数据挖掘的效率是目前信息技术研究的热点问题之一。介绍了数据挖掘的概念、过程模型以及体系结构,讨论了基于M icroso ft SQL Server 2005的数据挖掘方案和采用S Q L Se rver 分析服务实现数据挖掘的相关技术。采用SQL Se rver 分析服务的数据挖掘,实现了数据挖掘、数据仓库与应用程序的紧密耦合,从而大大提高了数据挖掘的效率。关键词:数据挖掘;S QL Serve r 2005;数据挖掘方案;S QL Server 分析服务

中图分类号:T P311 文献标识码:A do:i 10.3969/.j i ssn .1006 2475.2010.05.053

Research on DataM ining Based on S QL Server 2005

HUANG X i n g rong ,LI Chang li n g

(Depa rt m ent o f E l ectronics and Infor m ation Eng i neeri ng ,X uz hou Institute o f A rch itec t ural T echno l ogy ,Xuzhou 221116,Ch i na)Ab stract :T he effic i ency of da ta m ini ng i s a ho t prob l em o f i nfo r m ati on techno l ogy research at present .T he concep t ,process mod e l and sy stem ati c struct ure o f data m i ning a re i ntroduced .D ata m i n i ng progra m s and the related technolog i es based on M i croso ft S QL Serve r 2005are d iscussed .I m ple m entati on of system adopts SQL Server ana l ysis serv ices ,as a resu lt ,ti ghtness coupli ng o f da ta m i n i ng,data wa rehouse and appli ca tion ,i m proves e ffi c iency of data m i n i ng .

K ey w ords :da ta m i n i ng ;S QL Serve r 2005;data m i n i ng progra m;SQL Se rver ana l y si s se rv ices

0 引 言

数据挖掘(Data M ining ,DM )是致力于数据分析

和理解、揭示数据内部蕴藏知识的技术,被广泛地运用于科研和商业智能上。通常,数据挖掘使用自动化或半自动化的工具来分析数据和挖掘隐含的模式,以提高数据挖掘的效率。目前,常见的数据挖掘软件工

具都提供了常规的挖掘过程和挖掘模式[1]

基于M icroso ft SQL Server 2005的数据挖掘技术是对于数据挖掘理论的一种实现,它在商业智能(Busi n ess Intelligence ,B I)方面提供了三大服务和一

个工具来实现系统的整合[2]

。其中,集成服务(SQL Server I ntegrati o n Serv ices ,SSIS)用于数据抽取、数据整合;分析服务(SQL Server Ana l y sis Serv ices ,SSAS )提供了强大的多维数据分析和处理引擎、多种数据挖掘算法,以及功能丰富的服务器和客户端组件,用于联机分析处理、数据挖掘;报表服务(SQL Server R e porti n g Serv ices ,SSRS)用于自定义报表、数据展现;以

上的三方面服务都整合于B I S t u dio 的体系结构中。

在V isual Studio 2005中,内置了Ana lysis Ser v ices 项目模板和提供了各种可视化向导工具来帮助管理A na l y sis Serv ices 数据库,能够方便快捷地完成各种挖掘任务。同时,通过.NET Fra m e w ork 中的ADO https://www.sodocs.net/doc/2111423473.html, 接口能够方便地访问和操控Analysis Serv ices 数据库对象,从而为客户端智能应用程序开发提供了有力支持。可见,基于SQL Servers 2005的数据挖掘与传统数据挖掘应用程序相比较,具有便捷、高效的优势。本文将对数据挖掘的概念、过程模型、体系结构、算法和基于SQL Server 2005的数据挖掘方案、技术进行详细阐述。

1 数据挖掘技术

1.1数据挖掘的概念

数据挖掘是从大量不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的人们事先不知道但又有潜在的有用的信息和知识的过程。这些信息可

196 计 算 机 与 现 代 化2010年第5期

能有潜在价值,支持决策,可以为企业带来利益,或者为科学研究寻找突破口。数据挖掘利用各种分析方法和分析工具在大规模海量数据中建立模型和发现数据间关系,是现有的人工智能、数理统计、数据库等等成熟技术在特定系统中具体的应用。数据挖掘的常用方法包括关联分析、分类和预测、聚类、检测离群

点、趋势和演变分析等[3 5]

。数据挖掘是数据库中的知识发现中的一个主要步骤。知识发现过程分为5部分:数据选择、数据预处理、数据转换、数据挖掘及结果的解释和评估[6 7]

1.2数据挖掘过程模型

由于每一种数据挖掘技术方法都有其自身的特点和实现步骤,又与其具体应用问题有密切相关性。因此,数据挖掘过程是一件很复杂的事情。常用的数据挖掘过程模型有3个,其中的CR I SP DM (Cross I n dustry Standard Process for Data M ining)过程模型将整个挖掘过程分为以下的阶段:业务理解、数据理解、数

据准备、建模、评估和部署实施[2]

。图1为CR I SP D M

过程模型的示意。

图1 CR ISP DM 模型

1.3数据挖掘体系结构

一般来说,数据挖掘的体系结构如图2所示。数据挖掘工具将从数据仓库、数据库及平面文件中提取数据;挖掘库是数据挖掘体系结构的核心部分。在挖掘库中存放了数据挖掘项目需要的数据、算法库和知识库。在算法中存放了已经实现的挖掘算法,在知识库中存放着预先定义的和经过挖掘后的发现的知识。此外,通常数据挖掘工具也提供编程API ,让用户可以对算法进行改进,

实现算法嵌入到用户的界面系统中。

图2 数据挖掘的体系结构

1.4决策树

数据挖掘的核心是算法。在挖掘算法中,决策树

算法是分类发现算法中最常见的一种算法[8 10]

。在

对数据进行处理过程中,将数据按树状结构分成若干

分枝形成决策树,每个分枝包含数据元组的类别归属共性,从每个分枝中提取有用的信息形成规则。决策树算法围绕决策树的两个阶段展开。第一阶段,决策树构建:通过递归的算法将训练集生成一棵决策树。第二阶段,由测试数据检验生成的决策树,消除由于统计噪声或数据波动对决策树的影响来达到净化树的目的,得到一棵正确的决策树。

2 S QL Server 数据挖掘方案

2.1SQL Server 数据挖掘方案的构成

SQL Server 数据挖掘方案是按照CRISP DM 过程模型来进行构建,并为一些关键的步骤提供了相关的工具,该数据挖掘方案如图3所示[1 2]

。图中表示了数据挖掘中的一些关键过程,以及实施关键步骤需要使用的组件。S QL Server 把Busi n ess Intelli g ence Deve l o p m ent Studio 作为创建和使用数据挖掘模型的集成环境,此环境包括数据挖掘算法和工具,使用这些算法和工具易于生成用于各种项目的综合解决方案。

图3 S Q L Server 数据挖掘的过程及其使用的工具

其中,准备数据使用SSIS 来完成。浏览数据使

用数据源视图(Data Source V ie w )设计器来完成。创建模型使用挖掘向导或者直接书写DMX (Data M in i n g Ex tension,数据挖掘查询语言)语句来完成。定义完挖掘模型的结构之后,需要对其进行处理,使用说明模型的模式来填充空结构,这称为 定型 模型。模式是通过利用数学算法计算原始数据而得到的。2.2SQL Server 数据挖掘算法

数据挖掘过程的核心是算法,算法决定了如何分

析数据挖掘模型的实例。数据挖掘算法提供了分类、分段的能力,并结合和分析数据挖掘过程中得到的数据能够提供实例集的预测、可变、可能性的信息。

2010年第5期黄兴荣等:基于SQL Server2005的数据挖掘的研究197

SQL Sever针对可生成的每种模型包含一种不同的算法,可以使用参数调整每种算法。SS AS提供了9种算法作为挖掘工具,包括决策树算法、聚类分析算法、N a ve Bayes算法等[1 2]。

其中,M icroso ft决策树算法由M icrosoft SQL Serv er Analysis Serv i c es提供的分类和回归算法,用于对离散和连续属性进行预测性建模。对于离散属性,该算法根据数据集中输入列之间的关系进行预测。决策树根据朝向特定结果发展的趋势进行预测。对于连续属性,该算法使用线性回归确定决策树的拆分位置。该算法原理是[5]:通过在树中创建一系列拆分来生成数据挖掘模型。这些拆分以 节点来表示。每当发现输入列与可预测列密切相关时,该算法便会向该模型中添加一个节点。该算法确定拆分的方式不同,主要取决于它预测的是连续列还是离散列。

3 基于S QL Server2005分析服务实现

数据挖掘

SQL Server2005中包含了数据挖掘特性,SQL Server的分析服务采用开放的体系结构,是一整套的数据挖掘引擎和工具,无缝集成了多种符合OLE DB for Data M i n i n g规范和预测模型标记语言(P MML)的数据挖掘算法[11 13]。分析服务的访问通过图形用户界面工具,它可以访问数据挖掘和联机分析处理两种形式的决策支持机制,能够直接从数据挖掘仓库中进行挖掘操作,实现数据挖掘与数据仓库、应用程序的紧密耦合,从而大大提高数据挖掘效率。

3.1设计和创建数据仓库

基于SQL Server2005的数据挖掘是对于数据库、数据仓库中的数据进行分析和处理。在数据仓库中,最常用的数据模型是星型模型和雪花模型。在星型模型中,事实表居中,维表分布于其四周,并与事实表连接。雪花模型是对于星型的进一步层次化,将某些维表扩展成事实表[14]。

在本文中以foodm ar.t m db数据库作为业务数据,它是一家大型的食品连锁店的经营业务所产生的数据,包括了客户管理数据、销售数据、分销数据和库存数据等。在此,采用雪花型结构来构建该销售业务的数据仓库。其中,数据表划分为两类,一类是事实数据表,用来存储数据仓库中的实际数据;另一类是维度数据表,用来存储数据仓库中的维度数据。然后,通过数据库管理系统(DB M S)来建立数据仓库food m artsa l e sD W。3.2设计和使用ETL

ETL(Extract T ransfor m Load)是从源文件或源数据库中获取数据,并经过提取、转换和集成后,将其加载到数据仓库的过程。在此,ETL过程通过使用SSI S 服务来实现,从而实现把数据从foodm ar.t m db数据库提取、转换、加载到food m artsa l e sD W数据仓库中。

3.3创建OLAP多维数据集

数据挖掘模型可以用多种方法来创建,利用A na l y sis Serv ices模型向导,或者其它能够创建Ana l y sis Serv ices数据模型的应用软件。SQL Server2005的Analysis Serv ices支持基于OLAP多维数据集模型。多维数据集是指对数据的多维分析,是针对数据仓库中提取的子集,也称为数据集市。

多维数据集的创建和管理可以利用Ana l y sis Serv ices服务实现;或是利用DMX中的CRE ATE OLAP M I N I N G MODEL语句来创建一个基于OLAP 数据立方的挖掘模型。其语句如下:

CREATE O LA P M I N I NG M ODELFROM ()U SI NG

在这里指定了所构建模型的名字,这个模型的物理位置通过M i n i n g Locati o n特性来表示;是包含模型的测试案例Cube的名字;包括了创建模型的算法的名字。

3.4创建和使用报表

根据数据仓库中的事实表和维表,对数据仓库中数据可以进行多维化表示。采用的方法是对多维数据进行切片、切块、钻取和旋转等操作,实现从不同角度提取有关数据。通过对多维数据集进行全方位的操作,可以获取基于多维数据集的报表。报表可以使用SSRS报表来实现;也可以通过透视表服务(Pivot Tables Serv ice)提供的接口,采用DMX语句来完成对生成的多维数据集的查询。

3.5使用数据挖掘获取商业智能

数据挖掘对查找和描述多维数据集中的隐藏模式非常有用。在此,使用数据挖掘技术从营业数据中发现影响客户会员卡级别的因素。将创建一个数据挖掘模型以训练销售数据,并使用 决策树算法在客户群中找出会员卡选择模式。

3.5.1创建挖掘结构

实现数据挖掘要在Analysis Serv ices解决方案的基础上进行。数据挖掘所依赖的数据可以来源于业

198 计 算 机 与 现 代 化2010年第5期

务数据库和数据仓库,也可以来源于多维数据集。在此,选择M icroso ft 决策树算法创建挖掘结构,该算法是一种适合预测性建模的分类算法,支持离散属性和连续属性的预测。3.5.2从数据挖掘中获取有价值的信息

成功处理挖掘模型后,挖掘模型查看器会显示图4所示的决策树,其背景为 go lden ,显示级别为2,此决策树是对客户数据进行挖掘的结果。在图中,决策树显示由一系列拆分组成,最重要的拆分由算法确定,位于 全部 节点中查看器的左侧;其他拆分出现在右侧。有了此类信息,就可以确定最可能选择某种类型卡的客户的特征。根据这些特征,可以重新定义会员卡的服务和方案,

以便更好适应其客户。

图4 用决策树算法挖掘的结果

3.6开发客户端分析程序

在客户端应用分析程序中,可通过https://www.sodocs.net/doc/2111423473.html, 数据访问对象和DMX 语句以及OLE DB for Data

M i n i n g 来读取多维数据集的数据[14]

。ADOMD .NET 是对https://www.sodocs.net/doc/2111423473.html, 在多维数据集上的扩展,用于面向A nalysis Serv ices 数据库的访问;构建DMX 语句是用于创建和维护挖掘结构和模型、处理和浏览挖掘模型以及进行模型预测的关键。C #是功能强大的面向对象的可视化的程序开发工具,可以将D M X 语句嵌入到C #中开发客户端分析程序。

4 结束语

本文介绍了数据挖掘的概念、算法,重点研究了数据挖掘的过程模型、体系结构和基于SQL Server 2005分析服务如何进行数据挖掘的相关技术。SQL Server 2005是主流的数据库系统的管理软件之一,它具有一套完整的数据库和数据分析解决方案。基于SQL Server 2005的数据挖掘,具有易用和功能强大的特点。SQL Server 2005分析服务实现了数据挖掘与数据仓库、应用程序的紧密耦合,大大提高了数据挖掘的效率。

参考文献:

[1] 王欣,徐腾飞,唐连章,等.SQL Serv er 2005数据挖掘实

例分析[M ].北京:中国水利水电出版社,2008.[2] 朱德利.S QL Serve r 2005数据挖掘与商业智能完全解决

方案[M ].北京:电子工业出版社,2007.

[3] H an Jia w e,i K a m ber M i cheli ne .数据挖掘概念与技术

[M ].范明,孟小峰译.北京:机械工业出版社,2001.[4] 杨卫民,谭骏珊,汪斌.数据仓库和数据挖掘技术在DSS

中的应用研究[J].计算机工程与设计,2004,25(10):1695 1697.

[5] 陈文伟,黄金才.数据仓库与数据挖掘[M ].北京:人民

邮电出版社,2004.

[6] H an Ji awe ,i K a m ber M i che line .D a ta M i n i ng :Concepts and

T echn i ques[M ].San F ranc isco :M organ K auf m ann P ublish ers ,2001.

[7] 罗运模.S Q L Server 2000数据仓库应用与开发[M ].北

京:人民邮电出版社,2001.

[8] 武森,高学东,M.巴斯蒂安.数据仓库与数据挖掘

[M ].北京:冶金工业出版社,2003.

[9] H and Dav i d ,M ann ila H e i kk,i S m y t h P adhraic .数据挖掘原

理[M ].北京:机械工业出版社,2003.

[10]H an J ,K a m be r M.D ata M i n i ng :Concepts and T echn i ques

[M ].北京:机械工业出版社,2001.

[11]郑宇军,杜家兴.S QL Server 2005+V i sua l C #2005专业

开发精解[M ].北京:清华大学出版社,2007.

[12]B i n T.S Q L Server 数据仓库与A na l ysis Se rv ices[M ].邵

勇译.北京:中国电力出版社,2003.

[13]张波,陈定方,祖巧红.基于SQL Serve r 2005的数据挖掘

系统设计[J].湖北工业大学学报,2007,22(3):29 31.[14]边姜.数据仓库多维数据模型研究及其设计[J].软件世

界,2006(7):77 78.

数据挖掘可视化系统研究与实现

数据挖掘可视化系统设计与实现 摘要:针对当前数据可视化工具的种类、质量和灵活性的存在的不足,构建一个数据挖掘可视化平台。将获取的数据集上传到系统中,对数据集进行预处理,利用Mahout提供的分类、聚类等挖掘算法对数据集进行挖掘,使用ECharts将挖掘产生的结果进行可视化展示。 关键词:数据挖掘;可视化展示;数据预处理;挖掘算法 1引言 大数据时代,通过数据挖掘,可以对数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从而提取辅助商业决策的关键性信息。丰富而灵活的数据挖掘结果可视化技术使抽象的信息以简明的形式呈现出来,加深用户对数据含义的理解,更好地了解数据之间的相互关系和发展趋势。然而当前数据可视化工具的种类、质量和灵活性较大的影响数据挖掘系统的使用、解释能力和吸引力。 为此,本系统使用分布式大数据处理技术进行数据的存储和计算,构建一个数据挖掘可视化平台,以多种挖掘算法的实现对原始数据集进行挖掘,从而发现数据中有用的信息。 2.关键技术 (1)MapReduce离线计算框架 一种在YARN系统之上的大数集离线计算框架,使用MapReduce可以并行的对原始数据集进行计算处理,从而高效的得出结果。 (2)HBase分布式数据库 HBase是一个构建在Hadoop之上分布式的、面向列的开源数据库。HBase不同于一般的关系数据库,他是一个适合于非结构化数据存储的数据库。 (3)Mahout Mahout是Apache Software Foundation旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现。包括聚类、分类、推荐过滤、频繁子项挖掘等算法的实现。 (4)ECharts Echarts是百度团队对ZRender做了一次大规模重构的产物。他被定义为商业级报表,创建了坐标系,图例,提示,工具箱等基础组件,并在此上构建出折线图、柱状图、散点图、K线图、饼图、雷达图、地图、和弦图、力导向布局图、仪表盘以及漏斗图,同时支持任意纬度的堆积和多图表混合实现。 3.研究思路 数据挖掘可视化系统包括以下模块: (1)前台展示 通过对上传的数据集处理、挖掘、分析,将有价值的信息结果以图形化的形式展现给用户。 (2)数据集的存储 将要处理的数据集存储到HBase数据库中。HBase数据库能够对大数据提供随机、实时的读写访问功能。 (3)后台数据处理 通过使用Mahout数据挖掘包,对挖掘算法进行相关参数的设定,对从数据库中提取的数据集进行挖掘,从而提取出有用的信息。 具体如图1所示:

数据挖掘中聚类分析的研究_陈学进

收稿日期:2005-11-09 作者简介:陈学进(1972-),男,安徽六安人,讲师,硕士研究生,研究方向为计算机软件理论及数据挖掘;导师:胡学钢,博士,教授,研究方向为知识工程、数据挖掘、数据结构。 数据挖掘中聚类分析的研究 陈学进 (合肥工业大学计算机与信息学院,安徽合肥230009; 安徽工业大学计算机学院,安徽马鞍山243002) 摘 要:聚类分析是由若干个模式组成的,它在数据挖掘中的地位越来越重要。文中阐述了数据挖掘中聚类分析的概念、方法及应用,并通过引用一个用客户交易数据统计出每个客户的交易情况的例子,根据客户行为进行聚类。通过数据挖掘聚类分析,可以及时了解经营状况、资金情况、利润情况、客户群分布等重要的信息。对客户状态、交易行为、自然属性和其他信息进行综合分析,细分客户群,确定核心客户。采用不同的聚类方法,对于相同的记录集合可能有不同的划分结果对其进行关联分析,可为协助各种有效的方案,开展针对性的服务。关键词:数据挖掘;聚类分析;客户行为 中图分类号:T P311.13 文献标识码:A 文章编号:1673-629X (2006)09-0044-02 Research of Cluster Analysis in Data Mining CHEN Xue -jin (Computer and Information College of Hefei U niversity of T echnology ,Hefei 230009,China ; Computer College ,A nhui U niversity of T echnology ,M aanshan 243002,China ) Abstract :Cluster anal ysis is made up of patterns ,and becoming increasingly essential in data mining field .T his paper b riefly introduces the bas ic concept ,means and application of cluster anal ysis discussing about cluster analysis by using a case of customer trans action .In order to k now about much imoport information of running ,funds ,profits and customers .And anal yze state of cl ient ,bargaining action ,natu ral ess attribute and other information ,subdivide customer groups and fix on core client .By us ing various methods of cluster analysis ,it is effec -tive p roject to develop pertinence s ervice . Key words :data mining ;cluster analys is ;customer action 0 引 言 自20世纪60年代数据库系统诞生以来,数据库技术已经得到了飞速的发展,并且己经深入到社会生活的各个方面。现在,数据无处不在,可以存放在不同类型的数据库中,数据仓库技术可以将异构的数据库集成起来进行综合管理,从而提供更好的服务。 但是,随着科学技术的进步,新的数据采集和获取技术不断发展,使得数据库中所存储的数据量也随之急剧增长。另一方面,数据处理技术的发展却相对落后,数据库技术仍然停留在相对简单的录入、查询、统计、检索阶段,对数据库中的数据之间存在的关系和规则、数据的群体特征、数据集内部蕴涵的规律和趋势等,却缺少有效的技术手段将其提取出来,从而出现所谓的“被数据淹没,却饥渴于知识”(John Na isbett ,1997)的现象[1]。为了解决这种现象,科学家们于20世纪80年代末期创立了一个新的研究 领域,即数据挖掘(Data M ining ),或称数据挖掘和知识发 现(Data M ining and Know ledge Discovery ,DM KD )。这是在数据库技术、机器学习、人工智能、统计分析等基础上发展起来的一个交叉性的学科。区别于简单地从数据库管理系统检索和查询信息。数据挖掘是指“从数据中发现隐含的、先前不知道的、潜在有用的信息的非平凡过程”(Fra w le y ,1991),其目的是把大量的原始数据转换成有价值的、便于利用的知识。 自从数据挖掘和知识发现的概念于1989年8月首次出现在第11届国际联合人工智能学术会议以来,数据挖掘和知识发现领域的研究和应用均得到了长足的发展,形成了一些行之有效的理论和方法,并逐渐成为计算机信息处理领域的研究热点。 数据挖掘(Data M ining )是一个多学科交叉研究领域,它融合了数据库(Database )技术、人工智能(Artificial Intel -ligenc e )、机器学习(Machine Learning )、统计学(Statistics )、知识工程(Know ledge Engineering )、面向对象方法(Object -Oriented Method )、信息检索(Information Retrieval )、高性能计算(High -Perform ance Computing )以及数据可视化(Data Visualization )等最新技术的研究成果[2,3]。 第16卷 第9期2006年9月 计算机技术与发展COM PUTER TECHNOLOGY AND DEVELOPM ENT Vo l .16 N o .9Sep . 2006

基于数据挖掘技术的学生成绩分析系统

本科毕业设计(论文) 题目: 基于数据挖掘技术的学生成绩分析系统的设计与实现 姓名张宇恒 学院软件学院 专业软件工程 班级2010211503 学号10212099 班内序号01 指导教师牛琨 2014年5月

基于数据挖掘技术的学生成绩分析系统的设计与实现 摘要 随着科技的不断发展和中国教育制度的日趋完善,各大高校对教务管理工作提出了越来越高的要求。各大高校不再满足于传统的成绩管理方式,开始运用数据挖掘领域的先进方法对学生成绩进行分析和研究。教务工作人员使用关联规则挖掘算法分析课程间的内在联系,可为学校的改进教学工作提供依据,并为学生的选课和学业规划提供指导;对学生进行分类,让学生能够对自己在校期间所学课程的成绩有一个全面而清晰的了解,方便学生扬长避短选择选修课程,及时对可能在学习上遇到困难的学生进行预警;运用聚类算法对学生进行聚类,找出具有共同特征的学生,并对不同学生群体分别采取不同的教学方法,初步体现因材施教的教育理念,最终探索出适合中国国情和教育制度的个性化培养模式。 本系统采用Eclipse作为开发平台,以Java作为开发语言。通过对高校学生成绩分析系统的需求分析,本系统设计实现了可以使用关联规则挖掘算法分析课程间的内在联系,使用分类算法对学生进行分类,使用聚类算法对学生进行聚类。希望本系统能对今后高校学生成绩分析系统的开发提供一定的参考价值。 关键词成绩分析关联规则分类聚类

Design and implementation of student achievement analysis system based on data mining technology ABSTRACT With the continuous development of technology and the Chinese education system maturing, Universities have put higher requirements to their academic administration. Universities are no longer satisfied with traditional performance management, began to apply advanced data mining methods to analyze and study students’ achievement. Staff of academic affairs use association rule mining algorithm to analysis intrinsic link between courses, which can provide the basis for improving the teaching of the school and guidance for the student's enrollment and academic planning. Using classification algorithm to classify the students, so that students can have a clear understanding in their academic performance, and facilitate students in selecting courses. Warning students who probably face difficulties in the academic. Using clustering algorithm to cluster the students to identify students with common characteristics, so that teachers can teach different students in different way, embodies the concept of individualized education, finally discover a personalized education model, which is suitable for China's national conditions and education system. The system was developed in Eclipse, with java as a development language. By analyzing the need of student achievement analysis system, this system uses association rule mining algorithm to analysis intrinsic link between courses, uses classification algorithm to classify the students, uses clustering algorithm to cluster the students to identify students.I hope this system can provide some reference value to the future development of college student s’ achievement analysis system. KEY WORDS achievement analysis association rules classification clustering

数据挖掘研究现状及发展趋势

数据挖掘研究现状及发展趋势摘要:从数据挖掘的定义出发,介绍了数据挖掘的神经网络法、决策树法、遗传算法、粗糙集法、模糊集法和关联规则法等概念及其各自的优缺点;详细总结了国内外数据挖掘的研究现状及研究热点,指出了数据挖掘的发展趋势。 关键词:数据挖掘;挖掘算法;神经网络;决策树;粗糙集;模糊集;研究现状;发展趋势 Abstract:From the definition of data mining,the paper introduced concepts and advantages and disadvantages of neural network algorithm,decision tree algorithm,genetic algorithm,rough set method,fuzzy set method and association rule method of data mining,summarized domestic and international research situation and focus of data mining in details,and pointed out the development trend of data mining. Key words:data mining,algorithm of data mining,neural network,decision tree,rough set,fuzzy set,research situation,development tendency 1引言 随着信息技术的迅猛发展,许多行业如商业、企业、科研机构和政府部门等都积累了海量的、不同形式存储的数据资料[1]。这些海量数据中往往隐含着各种各样有用的信息,仅仅依靠数据库的查询检索机制和统计学方法很难获得这些信息,迫切需要能自动地、智能地将待处理的数据转化为有价值的信息,从而达到为决策服务的目的。在这种情况下,一个新的技术———数据挖掘(Data Mining,DM)技术应运而生[2]。 数据挖掘是一个多学科领域,它融合了数据库技术、人工智能、机器学习、统计学、知识工程、信息检索等最新技术的研究成果,其应用非常广泛。只要是有分析价值的数据库,都可以利用数据挖掘工具来挖掘有用的信息。数据挖掘典型的应用领域包括市场、工业生产、金融、医学、科学研究、工程诊断等。本文主要介绍数据挖掘的主要算法及其各自的优缺点,并对国内外的研究现状及研究热点进行了详细的总结,最后指出其发展趋势及问题所在。 江西理工大学

数据挖掘之专家系统

《数据挖掘》期末总结 ——专家系统 有关专家系统: 定义: 是一个(或一组)能在某特定领域内,以人类专家水平去求解该领域中困难问题的计算机智能程序系统。 构成: 完整的专家系统包括人机接口、推理机、知识库、数据库、知识获取器和解释机构六部分,如下图: 用户领域专家知识工程师 其核心在于推理机与知识库和综合数据库的交互作用,使得问题得以解决。 工作过程: 1)根据用户的问题对知识库进行搜索,寻找有关的知识;(匹配)2)根据有关的知识和系统的控制策略形成解决问题的途径,从而构成一个假设方案集合;

3)对假设方案集合进行排序,并挑选其中在某些准则下为最优的假设方案;(冲突解决) 4)根据挑选的假设方案去求解具体问题;(执行) 5)如果该方案不能真正解决问题,则回溯到假设方案序列中的下一个假设方案,重复求解问题; 6)循环执行上述过程,直到问题已经解决或所有可能的求解方案都不能解决问题而宣告“无解”为止。 企业、政府机构用的专家系统都是有严密的逻辑、也涉及大量的数据分析、并且是经过领域专家、工程师的经验校验,详细用户需求分析后的结果。 而实际上,在我们的日常生活中,也不经意的在思维过程中用到了专家系统,譬如在游戏“你来描述我来猜”的过程中,我们就可以抽取出一个专家系统——、 动物识别专家 在推理过程中,会同时推出几个结论。如:有毛发、会吃肉、有斑点——首先推出金钱豹有黑色条纹——再推出老虎有蹄——再推出斑马

有关学科总结 一学期结束,静下心复习总结时,才发现,这一学期无数次与数据挖掘打交道。 还记得《应用统计学》第一次作业:谈谈统计学与数据挖掘的关系。 还记得《管理信息系统》中CRM(客户关系管理系统),客户细分时提到的数据挖掘;决策支持系统以及BI中用到的数据挖掘。 还记得《信息系统分析与设计》做需求分析时要用到数据挖掘。 还记得跟老师做项目,查找信息可视化及知识图谱原理时,再一次提到数据挖掘。 就像课堂上说的:“互联网的时代,我们缺的不再是数据本身,而是海量数据包含的、隐含的信息,而这一信息的获取,除了我们敏锐的观察力从数据本身看到以外,还有太多有价值的信息需要我们运用相当的工具去深入挖掘——数据挖掘,理所应当成为了时代的必须,也是我们取胜的必须”。 《数据挖掘》课程本身更多的是给我们一种思想,一种看待、解决问题的新途径。通过课程的学习,我们不再简简单单的追求数据,我们会更多的去思考数据。 《应用统计学》也在讲数据处理,但应用统计学更多的是对已知数据分布的描述和趋势的预测,抑或是结论的检验。而《数据挖掘》所讲的数据是更倾向于如何把表面无关的数据建立联系,并从中获取有用信息。《应用统计学》是现状的描述和预测的检验,而《数据挖

数据挖掘系统设计技术分析

数据挖掘系统设计技术分析 【摘要】数据挖掘技术则是商业智能(Business Intelligence)中最高端的,最具商业价值的技术。数据挖掘是统计学、机器学习、数据库、模式识别、人工智能等学科的交叉,随着海量数据搜集、强大的多处理器计算机和数据挖掘算法等基础技术的成熟,数据挖掘技术高速发展,成为21世纪商业领域最核心竞争力之一。本文从设计思路、系统架构、模块规划等方面分析了数据挖掘系统设计技术。 【关键词】数据挖掘;商业智能;技术分析 引言 数据挖掘是适应信息社会从海量的数据库中提取信息的需要而产生的新学科。它可广泛应用于电信、金融、银行、零售与批发、制造、保险、公共设施、政府、教育、远程通讯、软件开发、运输等各个企事业单位及国防科研上。数据挖掘应用的领域非常广阔,广阔的应用领域使用数据挖掘的应用前景相当光明。我们相信,随着数据挖掘技术的不断改进和日益成熟,它必将被更多的用户采用,使企业管理者得到更多的商务智能。 1、参考标准 1.1挖掘过程标准:CRISP-DM CRISP-DM全称是跨行业数据挖掘过程标准。它由SPSS、NCR、以及DaimlerChrysler三个公司在1996开始提出,是数据挖掘公司和使用数据挖掘软件的企业一起制定的数据挖掘过程的标准。这套标准被各个数据挖掘软件商用来指导其开发数据挖掘软件,同时也是开发数据挖掘项目的过程的标准方法。挖掘系统应符合CRISP-DM的概念和过程。 1.2ole for dm ole for dm是微软于2000年提出的数据挖掘标准,主要是在微软的SQL SERVER软件中实现。这个标准主要是定义了一种SQL扩展语言:DMX。也就是挖掘系统使用的语言。标准定义了许多重要的数据挖掘模型定义和使用的操作原语。相当于为软件提供商和开发人员之间提供了一个接口,使得数据挖掘系统能与现有的技术和商业应用有效的集成。我们在实现过程中发现这个标准有很多很好的概念,但也有一些是勉为其难的,原因主要是挖掘系统的整体概念并不是非常单纯,而是像一个发掘信息的方法集,所以任何概念并不一定符合所有的情况,也有一些需要不断完善和发展中的东西。 1.3PMML

数据挖掘技术及应用综述

作者简介:韩少锋,男,1980年生,中北大学在读硕士研究生。研究方向:人工智能技术。 引言 “人类正被信息淹没,却饥渴于知识.”这是1982年 趋势大师JohnNaisbitt的首部著作《大趋势》(Mega-trends)中提到的。 随着数据库技术的迅速发展,如何从含有海量信息的数据库中提取更有价值、更直观的信息和知识?人们结合统计学﹑数据库﹑机器学习﹑神经网络﹑模式识别﹑模糊数学﹑粗糙集理论等技术,提出‘数据挖掘’这一新的数据处理技术来解决这一难题。数据挖掘(DataMining)就是从大量的﹑不完全的﹑有噪声的﹑模糊的﹑随机的数据中,提取隐含在其中的﹑人们事先不知道的﹑但又是潜在的有用的信息和知识的过程。这些数据可以是:结构化的,半结构化的,分布在网络上的异构性数据。数据挖掘在许多领域得到了成功的应用,使数据库技术进入了一个更高级的发展阶段,很多专题会议也把数据挖掘和知识发现列为议题之一。 1数据挖掘技术概述 1.1数据挖掘的概念 数据挖掘的概念有多种描述,最常见的有两种:(1)G.PiatetskyShapior,W.J.Frawley数据挖掘定义为:从数据库的大量数据中揭示出隐含的、先进而未知的、潜在有用信息的频繁过程。(2)数据挖掘的广义观点:数据挖掘是从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘有趣知识的过程。数据挖掘的特点有:1)用户需要借助数据挖掘技术从大量的信息中找到感兴趣的信息;2)处理的数据量巨大;3)要求对数据的变化做出及时的响应;4)数据挖掘既要发现潜在的规则,也要管理和维护规则,规则的改变随着新数据的不断更新而更新;5)数据挖掘规则的发现基于统计规律,发现的规则不必适用于全部的数据。 数据挖掘要面对的是巨大的信息来源;通过数据挖 掘,有价值的知识、规则或高层次的信息就能从数据库的相关数据集合中抽取出来,并从不同角度显示,从而使大型数据库作为一个丰富可靠的资源为知识归纳服务。 1.2数据挖掘的简史 从数据库中知识发现(KDD)一词首先出现在1989 年举行的第十一届国际联合人工智能学术会议上。目前为止,由美国人工智能协会主办的KDD国际研讨会已经召开了8次,规模由原来的专题讨论会发展到国际学术大会,研究重点也从发现方法转向系统应用。1999年,亚太地区在北京召开的第三届PAKDD会议收到158篇论文,研讨空前热烈。 目前,数据挖掘技术在零售业的购物篮分析﹑金融风险预测﹑产品质量分析﹑通讯及医疗服务﹑基因工程研究等许多领域得到了成功的应用。 1.3数据挖掘的对象 数据挖掘的对象包含大量数据信息的各种类型数 据库。如关系数据库,面向对象数据库等,文本数据数据源,多媒体数据库,空间数据库,时态数据库,以及 Internet等类型数据或信息集均可作为数据挖掘的对 象。 1.4数据挖掘的工具 许多软件公司和研究机构,根据商业的实际需要 开发出许多数据挖掘工具。例如:有多种数据操控和转换特点的SASEnterpriseMiner;采用决策树、神经网络和聚类技术综合的数据挖掘工具集-IBMInterlligentMiner;可以提供多种统计分析、 决策树和回归方法,在Teradata数据库管理系统上原地挖掘的Teradata WarehouseMiner;以及同时具有数据管理和数据概括能力,能够用于多种商业平台的SPSSClementine。以上 主流数据挖掘工具都能提供常用的挖掘过程和挖掘模 数据挖掘技术及应用综述 韩少锋 陈立潮 (中北大学计算机科学与技术系 山西 太原 030051) 【摘要】介绍了数据挖掘技术的背景、概念、流程、数据挖掘算法,并阐述了数据挖掘技术的应用现状。 【关键词】数据挖掘 知识发现 人工智能 数据仓库 【中图分类号】TP311.138 【文献标识码】B 【文章编号】1003-773X(2006)02-0023-02 第2期(总第89期)机械管理开发 2006年4月No.2(SUMNo.89)MECHANICALMANAGEMENTANDDEVELOPMENT Apr.2006 23??

数据挖掘技术在软件工程中的应用研究

数据挖掘技术在软件工程中的应用研究 发表时间:2018-06-20T10:03:11.023Z 来源:《电力设备》2018年第5期作者:张佳鑫李爱萍 [导读] 摘要:社会发展的信息化水平在不断提高,越来越多的信息资源被相应的数据所替代,而实现这些信息资源充分利用的前提即是对其相应的数据进行管理与分析。 (太原理工大学计算机科学与技术学院山西太原 030024) 摘要:社会发展的信息化水平在不断提高,越来越多的信息资源被相应的数据所替代,而实现这些信息资源充分利用的前提即是对其相应的数据进行管理与分析。数据挖掘技术作为一种新型的网络技术,在软件工程的大数据分析中占据核心地位,有利于提高数据的可靠性与安全性。本文主要分析了数据挖掘技术在软件工程中的应用策略。 关键词:数据挖掘;软件工程;策略;发展 随着信息技术的不断发展,日常生活中人们所接触的信息量越来越多,如何在众多信息量中找到自己有用的信息,成为影响人们工作效率和工作质量的关键因素,而数据挖掘技术的应用则能很好的解决这个问题。所谓数据挖掘是指在大量、无序、模糊的数据中挖掘出其中有用的信息的过程,它能实现信息的分类、聚类并进行偏差分析。数据挖掘技术一般流程为数据预处理、数据挖掘、模式评估与知识表示等等,笔者结合实际经验,分析了数据挖掘技术在软件工程中的应用策略,对数据挖掘技术的发展提出了几点思考。 1数据挖掘技术概述 1.1数据挖掘技术的定义 数据挖掘技术,也成为数据库中的知识发现,发展于上个世纪末,是当前数据库领域内最新的应用研究技术。历经多年的发展,数据挖掘技术已成为当前数据库领域内最为关键的组成部分,但是还没有较为统一的定义。当前数据挖掘技术定义认可度最高的便是由W.J.Frawley等人所提出的,将数据挖掘技术理解为从数据中提炼出更为高效、更为新颖、更具潜在应用价值,并最终可理解模式的非平凡过程中。主要具有如下多方面内容: (1)数据源务必真实、数据量较大、并含噪音,不完全; (2)应用于获取终端用户兴趣较高的未知知识信息; (3)所获取的知识具备有效性、新颖性,且为潜在的; (4)更用于发现特定的问题,对知识量没有过多要求; 综合而言,数据挖掘属于复杂度较高的交叉学科,包括人工智能、模式识别、统计学、数据可视化等等交叉性相对较大的新型学科,未来拥有良好的发展空间。 1.2数据挖掘技术一般流程 一般而言,数据挖掘主要由数据预处理、数据挖掘以及模式评估和知识表示等三阶段组成。具体如下: (1)数据预处理。主要由原始信息获取、数据清洗、数据抽取及数据交换等构成。原始数据获取在于获取发现任务的处理对象,主要按照相应的需求而获取数据。数据清洗目的在于完善原始数据所缺失的数据。数据抽取指将特定的数据源中获取与分析任务相关的数据。数据转换在于规格化数据,以满足特定范围要求。 (2)数据挖掘,第一步便是明确挖掘任务,包括数据分类、数据总结等等,紧接着便是确定挖掘算法,应结合数据实际特点以及具体系统特定需求来确定算法。 (3)模式评估与知识表示。模式用于表示数据挖掘所形成的结果,用特定的兴趣度进行度量,用于识别表示知识的真正有趣模式。在此之中所使用的度量特定值通常由领域专家、用户标准等给出 2数据挖掘技术在软件工程中的应用情况 2.1执行记录 对于执行记录挖掘来说,就是分析程序执行路径,找寻存在于程序中的代码关系,将数据挖掘及时应用到软件工程中就是跟踪相关执行路径,在逆向建模的作用下达到既定目标,其主要作用是维护与验证程序。在执行记录的过程中,主要是插装系统,然后用相关软件接口编程,同时记录相关变量等,最终将收集来的信息整合在一起,构建相应的系统模型。 2.2漏洞检测 在软件工程中利用数据挖掘技术进行漏洞检测,主要是为了及时发现存在于软件开发中的问题,这样就可以尽快将漏洞弥补,对提高软件质量有很好的作用。通常情况下,利用数据挖掘及时检测软件漏洞看,就是先对软件进行系统测试看,同时根据用户需求制定出科学合理的应对措施。然后将各种漏洞数据收集整理在一起,逐一做好数据清理与转换。通过分析这些数据信息能够得知,为做好数据清理工作,就需要将多余数据清理出去,然后对丢失项目进行补充,这样再将数据属性以数值的形式体现出来。其次,要构建合适的数据模型,做好验证与训练。在这一过程中应重视与项目实际的联系,选择与之相匹配的挖掘方式,以便构成测试集,获得相应结果。此外,还要做好漏洞扫描与分类,将所有漏洞整理起来构成漏洞库,然后再次扫描,防止漏洞遗失,最后将通过挖掘得来的数据知识应用到软件测试中。 2.3开源软件 对于开源软件来说,其挖掘环境带有明显的开放性与全面性特征,所以,在管理这样的软件时,就不能使用传统软件的开发方式。一般而言,较为成熟的开源软件,能够详细记录开发中所遇到的错误,同时也包括软件开发者的一些活动,以及软件在市场中的应用情况。对于参与软件开发的人员来说,他们是社会网络的主要创造者,然而,由于开源软件的开放特征较为明显,所以也就让这些参与人员随之发生变化。同时,由于开源软件还带有动态特征,所以就需要重视开源项目的进一步管理,也就是由专业人士管理软件系统,在这项工作中做的最好的莫过于英国牛津大学的Sima系统。 2.4版本信息控制 在版本信息控制应用中,主要是确保项目参与者所使用的档案相同,这样也有利于全面更新。对于软件工程开发来说,通常会用版本控制系统管理与开发软件。同时利用版本信息控制,选择合适的变更历史信息的方法,以便获取不同模块,在这种情况下子系统也可以相互映衬,这对深度挖掘程序变化,做好漏洞检测具有重要作用。随着数据挖掘技术在软件工程中的应用,不仅可以有效减少系统维护资

数据挖掘层次聚类算法研究综述

数据挖掘层次聚类算法研究综述 摘要聚类问题是数据挖掘中的重要问题之一,是一种非监督的学习方法。分层聚类技 术在图像处理、入侵检测和生物信息学等方面有着极为重要的应用,是数据挖掘领域的研究热点之一。本文总结了分层聚类算法技术的研究现状,分析算法性能的主要差异,并指出其今后的发展趋势。 关键词层次聚类,数据挖掘,聚类算法 Review of hierarchical clustering algorithm in Data Mining Abstract Clustering problem of data mining is one of important issues, it is a kind of unsupervised learning methods. Stratified cluster technology in image processing, intrusion detection and bioinformatics has extremely important application and is data mining area of research one of the hotspots. This paper summarizes the layered clustering algorithm technology research, analyzes the main difference arithmetic performance, and pointed out the future development trend. Keywords Hierarchical clustering,Data mining,Clustering algorithm 1引言 随着计算机技术的发展,信息数据越来越多,如何从海量数据中提取对人们有价值的信息已经成为一个非常迫切的问题。由此产生了数据挖掘技术,它是一门新兴的交叉学科,汇集了来自机器学习、模式识别、数据库、统计学、人工智能等各领域的研究成果。聚类分析是数据挖掘中的一个重要研究领域。它在图像处理、入侵检测和生物信息学等方面有着极为重要的应用。数据挖掘是从大量数据中提取出可信、新颖、有效并能被人理解的模式的高级处理过程。其目标是从数据库中发现隐含的、有意义的知识。聚类分析作为一个独立的工具来获得数据分布的情况,是数据挖掘的一个重要研究分支。 在数据挖掘领域,研究工作己经集中在为大型数据库的有效和实际的聚类分析寻找适当的方法。活跃的主题集中在聚类方法的可伸缩性,方法对聚类复杂形状和类型的数据的有效性,高维聚类分析技术,以及针对大型数据库中混合数值和分类数据的聚类方法。迄今为止,人们己经提出了很多聚类算法,它们可以分为如下几类:划分方法、层次方法、基于密度的方法、基于网格的方法和基于模型的方法,这些算法对于不同的研究对象各有优缺点。在聚类算法当中,划分方法和层次方法是最常见的两类聚类技术,其中划分方法具有较高的执行效率,而层次方法在算法上比较符合数据的特性,所以相对于划分方法聚类的效果比较好。[1] 层次聚类算法和基于划分的K-Means聚类算法是实际应用中聚类分析的支柱,算法简单、快速而且能有效地处理大数据集。层次聚类方法是通过将数据组织为若干组并形成一个相应的树来进行聚类的。根据层是自底而上还是自顶而下形成。一个完全层次聚类的质量由于无法对己经做的合并或分解进行调整而受到影响。但是层次聚类算法没有使用准则函数,它所潜含的对数据结构的假设更少,所以它的通用性更强。 2 基于层次的聚类算法 2.1 凝聚的和分裂的层次聚类 层次聚类是聚类问题研究中一个重要的组成部分。分层聚类的基本原则可以表述为:如

海洋数据挖掘技术应用研究

第 27 卷第 6 期海洋通报V ol. 27,No.6 2008 年 12 月 MARINE SCIENCE BULLETIN Dec. 2008 海洋数据挖掘技术应用研究 魏红宇1, 2,张峰2,李四海2 ( 1.中国海洋大学,山东青岛 266003;2.国家海洋信息中心,天津 300171 ) 摘 要:在研究中外数据挖掘技术在海洋应用的现状和进展的基础上,结合海洋数据特点及应用需求,提出了海洋数据挖掘技术应 用模式,并介绍了基于计算机技术、数据库技术、GIS 技术的海洋数据挖掘应用系统的主要功能和系统架构。最后通过对赤潮预测 的数据挖掘应用分析,验证了系统应用的科学合理性。 关键词:海洋;数据挖掘;系统应用;赤潮 中图分类号:P717;TP311 文献标识码:A 文章编号:1001-6932(2008)06-0082-0006 数据挖掘( Data Mining ) 技术的概念,产生于 20 世纪 90 年代初,它是指从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程[1]。通俗地讲,数据挖掘就是利用各种分析工具在海量数据中寻找和发现模型和数据间关系的过程,可以利用这些模型和关系对数据的潜在规律做出预测。在实际应用中,数据挖掘概念有两个方面的意思。一方面它有数据提取的含义,即从各种类型的原始数据中精确定位符合各种查询条件的数据集;另一方面,它有数据处理的含义,即利用各种相关的模型和算法,对提取到的数据集进行各种分析处理,从而得到想要的信息和规律。目前,常用的数据挖掘算法主要有聚类分析、回归分析、主成分分析、插值分析、关联分析、神经网络等。 经过多年的海洋调查和资料收集,我国已拥用了大量珍贵的海洋科学数据和相关信息,这些数据包括海洋水文、海洋表面气象、海洋生物、海洋化学、海洋环境质量、海洋地质、海洋地球物理、海洋基础地理、海洋航空与卫星遥感、海洋经济、海洋资源等各个海洋学科领域,数据总量多达千亿字节 [2]。如何有效地利用专家知识及各类统计分析算法、模型,对各学科类型的海洋数据资源进行数据挖掘,从中发现有用信息,分析海洋现象并预测海洋规律,为海洋科学研究和综合管理提供信息决策支持一直是广大海洋科技工作者的重要研究方向。经过多年的不断努力,国内外关于数据挖掘技术在海洋领域的应用研究已经取得了许多实质性进展。如 Wooley B 等人将海洋数据作为数据源开展了分类规则挖掘的研究[3];Ding Q 针对遥感图像的关联规则挖掘进行了深入研究[4];冯剑丰研究了国内外的主要赤潮预测方法:单因子指数法、综合指数法、建立赤潮生态仿真模型、运用人工智能技术进行预测等[5];杨建强探讨了应用人工神经网络原理进行赤潮预报的方法,指出人工神经网络方法在模拟和预测方面优于传统的统计回归模型,具有较强的模拟预测能力及实用性[6]等。由此可见,对于海洋领域的数据挖掘技术研究已经由单纯理论研究进入到应用研究的阶段,并已取得了一些实质性的研究成果。但是,由于海洋数据特征的复杂性及海洋专题应用研究的复杂情况,海洋数据挖掘技术离大规模地业务化应用推广还有一定距离。 1 海洋数据挖掘技术应用需求 对于海洋领域的数据挖掘技术的应用研究较其它领域更为复杂,数据挖掘的成熟应用与业务化推广还存在许多困难,这与海洋数据自身特点的复杂性有关,概括来看,海洋数据大致有以下一些特点: a ) 数据类型复杂多样。海洋数据包括海洋基础环境数据、海洋遥感数据、海洋经济统计数据等几个大类数据。而每个大类数据下又有很多子类。比如:海洋环境数据又分为海洋水文、海洋气象、海洋物理、海洋化学、海洋生物、海洋地质、海洋地形与海洋地球物理等子类,每个子类又可进一步划分。可见,海 收稿日期:2008-05-28 基金项目:国家海洋局 908 专项( 908-03-01-13 )

数据挖掘技术的研究现状及发展方向_陈娜

数据挖掘技术的研究现状及发展方向 陈娜1.2 (1.北京交通大学计算机学院,北京100044;2.石家庄铁路运输学校,河北石家庄050021) 第 !" 电脑与信息技术卷 ( ! )可视化技术 [ " ] 通过直观的图形方式将 信息数据、关联关系以及发展趋势呈现给决策者, 使用最多的方法是直方图、数据立方体、散点图。 其中数据立方体可以通过 #$%& 操作将更多用户 关心的信息反映给用户。 ( ’ )遗传算法 [ ( ] 是一种模拟生物进化过程 的算法,最早由 )*++,-. 于 /0 世纪 (0 年代提出。 它是基于群体的、具有随机和定向搜索特征的迭 代过程,包括 ! 种典型的算子:遗传、交叉、变异和 自然选择。遗传算法作用于一个由问题的多个潜

在解(个体)组成的群体上,并且群体中的每个个体都由一个编码表示,同时个体均需依据问题的 目标函数而被赋予一个适应值。另外,为了应用遗传算法,还需要把数据挖掘任务表达为一种搜索 的问题,以便发挥遗传算法的优势搜索能力。同时可以用遗传算法中的交叉、变异完成数据挖掘中 用于异常数据的处理。 ( ")统计学方法 [ 1 ] 在数据库字段项之间存 在着两种关系:函数关系(能用函数公式表示的确定性关系)和相关关系(不能用函数公式表示,但仍是相关确定关系)。对它们的分析采用如下方 法:回归分析、相关分析、主成分分析。主要用于数据挖据的聚类方法中。 ( ()模糊集(23445 678)方法利用模糊集理 论对实际问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。模糊性是客观存在的。系统的复杂性越高,精确化能力就越低,即模糊性就越强,这是 9,.7: 总结出的互克性原理。 / 数据挖掘的算法 ( ;)关联规则中的算法 %<=>*=>算法是一种最具有影响力的挖掘布 尔关联规则频繁项集的算法,该算法是一种称为 主层搜索的迭代方法,它分为两个步骤: ,?通过多趟扫描数据库求解出频繁;@项集的 集合 $ ; ; A?不断的寻找到/@项集$ / … -@项集$ - ,最后 利用频繁项集生成规则。 随后的许多算法都沿用

数据挖掘研究及发展现状

数据挖掘技术的研究现状及发展方向 摘要:数据挖掘技术是当前数据库和人工智能领域研究的热点。从数据挖掘的定义出发,介绍了数据挖掘的神经网络法、决策树法、遗传算法、粗糙集法、模糊集法和关联规则法等概念及其各自的优缺点;详细总结了国内外数据挖掘的研究现状及研究热点,指出了数据挖掘的发展方向。 关键词:数据挖掘;神经网络;决策树;粗糙集;模糊集;研究现状;发展方向 The present situation and future direction of the data mining technology research Abstract: Data mining technology is hot spot in the field of current database and artificial intelligence. From the definition of data mining, the paper introduced concepts and advantages and disadvantages of neural network algorithm, decision tree algorithm, genetic algorithm, rough set method, fuzzy set method and association rule method of data mining, summarized domestic and international research situation and focus of data mining in details, and pointed out the development trend of data mining. Key words: data mining, neural network, decision tree, rough set, fuzzy set, research situation, development direction 0 引言 随着信息技术的迅猛发展,许多行业如商业、企业、科研机构和政府部门等都积累了海量的、不同形式存储的数据资料[1]。这些海量数据中往往隐含着各种各样有用的信息,仅仅依靠数据库的查询检索机制和统计学方法很难获得这些信息,数据和信息之间的鸿沟要求系统地开发数据挖掘工具,将数据坟墓转换成知识金砖,从而达到为决策服务的目的。在这种情况下,一个新的技术——数据挖掘(Data Mining,DM)技术应运而生[2]。数据挖掘正是为了迎合这种需要而产生并迅速发展起来的、用于开发信息资源的、一种新的数据处理技术。 数据挖掘通常又称数据库中的知识发现(Knowledge Discovery in Databases),是一个多学科领域,它融合了数据库技术、人工智能、机器学习、统计学、知识工程、信息检索等最新技术的研究成果,其应用非常广泛。只要是有分析价值的数据库,都可以利用数据挖掘工具来挖掘有用的信息。数据挖掘典型的应用领域包括市场、工业生产、金融、医学、科学研究、工程诊断等。本文主要介绍数据挖掘的主要算法及其各自的优缺点,并对国内外的研究现状及研究热点进行了详细的总结,最后指出其发展趋势及问题所在。 1 数据挖掘算法 数据挖掘就是从大量的、有噪声的、不完全的、模糊的、随机的实际应用数据中提取有效的、新颖的、潜在有用的知识的非平凡过程[3]。所得到的信息应具有先前未知、有效和实用三个特征。数据挖掘过程如图1所示。这些数据的类型可以是结构化的、半结构化的、甚至是异构型的。发现知识的方法可以是数学的、非数学的、也可以是归纳的。最终被发现了的知识可以用于信息管理、查询优化、决策支持及数据自身的维护等[4]。 数据选择:确定发现任务的操作对象,即目标对象; 预处理:包括消除噪声、推导计算缺值数据、消除重复记录、完成数据类型转换等; 转换:消减数据维数或降维; 数据开采:确定开采的任务,如数据总结、分类、聚类、关联规则发现或序列模式发现等,并确定使用什么样的开采算法; 解释和评价:数据挖掘阶段发现的模式,经过用户和机器的评价,可能存在冗余或无关的模式,这时需要剔除,使用户更容易理解和应用。十大经典算法如图2: 目前,数据挖掘的算法主要包括神经网络法、决策树法、遗传算法、粗糙集法、模糊集法、关联规则法等。

相关主题