搜档网
当前位置:搜档网 › 聚类算法研究

聚类算法研究

ISSN1000?9825。CODENRUXUEW

JournalofSoftware,V01.19,No.1,January2008,PP.48“1

130I:10.3724/SEJ.1001.2008.00048

o2008byJournalofSoftware.Allrightsreserved.

聚类算法研究。

...●

孙吉贵u,刘杰1,2+’赵连宇1,2

1(吉林大学计算机科学与技术学院,吉林长春130012)

2(符号计算与知识工程教育部重点实验室,吉林长春130012)ClusteringAlgorithmsResearch

SUNJi.GuiL2,LIUJie协,ZHAOLian.Yul’2

E-mail:jos@iscas.ac.enhnp://www.jos.org.cnTel/Fax-+86.10-62562563

1(CollegeofComputerScienceandTechnology。JilinUniversity。Changchun130012,China)

2(KeyLaboratoryofSymbolicComputationandKnowledgeEngineeringoftheMinistryofEducation,Changchun130012,China)

+Correspondingauthor:Phn:+86-431?85166478,E?mail:lin.jie@jlu.edu.∞

SunJG,LiuJ,ZhaoLY.Clusteringalgorithmsresearch.Journal矿Software,2008,19(1):48-61.http://www.jos.org.cn/1000-9825/19/48.htm

Abstract:Theresearchactualityandnewprogressinclusteringalgorithminrecentyearsaresummarizedinthispaper.First,theanalysisandinductionofsomerepresentativeclusteringalgorithmshavebeenmadefromseveralaspects,suchastheideasofalgorithm,keytechnology,advantageanddisadvantage.Ontheotherhand,severaltypicalclusteringalgorithmsandknowndatasetsareselected,simulationexperimentsareimplementedfrombothsidesofaccuracyandrunningefficiency,andclusteringconditionofonealgorithmwithdifferentdatasetsisanalyzedbycomparingwiththesameclusteringofthe

datasetunderdifferentalgorithms.Finally,theresearchhotspot,difficulty,shortageofthedataclusteringandsomependingproblemsareaddressedbytheintegrationoftheaforementionedtwoaspectsinformation.TheaboveworkCallgiveavaluablereferencefordataclusteringanddatamining.,‘

Keywords:clustering;algorithm;experiment

摘要:对近年来聚类算法的研究现状与新进展进行归纳总结.一方面对近年来提出的较有代表性的聚类算法,从算法思想.关键技术和优缺点等方面进行分析概括;另一方面选择一些典型的聚类算法和一些知名的数据集,主要从正确率和运行效率两个方面进行模拟实验,并分别就同一种聚类算法、不同的数据集以及同一个数据集、不同的聚类算法的聚类情况进行对比分析.最后通过综合上述两方面信息给出聚类分析的研究热点、难点、不足和有待解决的一些问题.上述工作将为聚类分析和数据挖掘等研究提供有益的参考.

关键词:聚类:算法:实验

中图法分类号:TPl8文献标识码:A

聚类分析研究有很长的历史,几十年来,其重要性及与其他研究方向的交叉特性得到人们的肯定.聚类是数?SupportedbytheNationalNaturalScienceFoundationofChina

underGrantNos.60473003,60573073(国家自然科学基金);theMajorResearchProgramofNationalNaturalScienceFoundationofChinaunderGrantNo.60496321(国家自然科学基金重大项目)Received200%04-24;Accepted2007—08..03

孙吉贵等:聚类算法研究49

据挖掘、模式识别等研究方向的重要研究内容之一,在识别数据的内在结构方面具有极其重要的作用.聚类主要应用于模式识别中的语音识别、字符识别等,机器学习中的聚类算法应用于图像分割和机器视觉,图像处理中聚类用于数据压缩和信息检索.聚类的另一个主要应用是数据挖掘(多关系数据挖掘)、时空数据库应用(cis等)、序列和异类数据分析等.此外,聚类还应用于统计科学.值得一提的是,聚类分析对生物学、心理学、考古学、地质学、地理学以及市场营销等研究也都有重要作用[1-31.

本文一方面从算法思想、关键技术和优缺点等方面对近年提出的较有代表性的聚类算法进行了分析、介绍;另一方面又选用多个知名数据集对一些典型算法进行了测试.而后综合这两方面信息得出一些相应的结论.本文第1节简单介绍聚类概念、聚类过程与聚类算法的类别.第2节重点阐述17个较有代表性的算法.第3节描述8种聚类算法的模拟实验结果,并结合文献[4】进行分析.第4节给出本文的一些结论.

1聚类与聚类算法类别

1.1聚类概念与聚类过程

迄今为止,聚类还没有一个学术界公认的定义.这里给出Everitt[5】在1974年关于聚类所下的定义:一个类簇内的实体是相似的,不同类簇的实体是不相似的;一个类簇是测试空间中点的会聚,同一类簇的任意两个点间的距离小于不同类簇的任意两个点间的距离:类簇可以描述为一个包含密度相对较高的点集的多维空间中的连通区域,它们借助包含密度相对较低的点集的区域与其他区域(类簇)相分离.

事实上。聚类是一个无监督的分类,它没有任何先验知识可用.聚类的形式描述如下:

令泸{Pl,p2….炉。}表示一个模式(实体)集合∥f表示第i个模式f_{1,2….,一};C,c_U,f=l,2….,七,

C={巩,pf2,...,p0)",proximity(pros,Pit),其中,第1个下标表示模式所属的类,第2个下标表示某类中某一模式,函数proximi钞用来刻画模式的相似性距离.若诸类cl为聚类之结果,则诸G需满足如下条件:+j1)U暑e=U.

2)对于VG,C是以G≠C,有C二nC户0(仅限于刚性聚类);

MINv,.;c-,‰。c,v‘,cc【,&厶tc,(proximity(p。,B,))>MAXvpwa,^。。厶,v岛cu(proximity(p。,j■)).典型的聚类过程主要包括数据(或称之为样本或模式)准备、特征选择和特征提取、接近度计算、聚类(或分组)、对聚类结果进行有效性评估等步骤‘3t6~.

聚类过程:

1)数据准备:包括特征标准化和降维.’

2)特征选择:从最初的特征中选择最有效的特征,并将其存储于向量中.

3)特征提取:通过对所选择的特征进行转换形成新的突出特征.‘

4)聚类(或分组):首先选择合适特征类型的某种距离函数(或构造新的距离函数)进行接近程度的度量;

而后执行聚类或分组.

5)聚类结果评估:是指对聚类结果进行评估.评估主要有3种:外部有效性评估、内部有效性评估和相关性测试评估.

1.2聚类算法的类别

没有任何一种聚类技术(聚类算法)可以普遍适用于揭示各种多维数据集所呈现出来的多种多样的结构【71.根据数据在聚类中的积聚规则以及应用这些规则的方法,有多种聚类算法.聚类算法有多种分类方法,本文将聚类算法大致分成层次化聚类算法、划分式聚类算法、基于密度和网格的聚类算法和其他聚类算法,如图l所示的4个类别.

JournalofSoftware软件学报V01.19,No.1,January2008

2聚类算法Fig.1Theclassificationchartofclusteringalgorithms图1聚类算法分类图

2.1层次聚类算法

层次聚类算法又称为树聚类算法【8.,j,它使用数据的联接规则,透过一种层次架构方式,反复将数据进行分裂或聚合,以形成一个层次序列的聚类问题解.本文仅以层次聚类算法中的层次聚合算法为例进行介绍.层次聚合算法的计算复杂性为O(n2),适合于小型数据集的分类.

2.1.1层次聚合算法

该算法由树状结构的底部开始逐层向上进行聚合,假定样本集始{Dl,02,...,O。}共有n个样本.

HAl[初始化】.置每个样本0i为一个类;/.共形成/'/个类:D1,02,...,0。?/

HA2[找最近的两个类】.distance(o,,吼)=miIl饥。~。s^。~distance(o.,ov);

/.从现有的所有类中找出距离最近(相似度最大)的两个类0,和DI?/

FLA3[合并D,和钥.将类Dr和啦合并成一个新类p石/+现有的类数将减1./

HA4.若所有的样本都属于同一个类,则终止本算法;否则,返回步骤HA2.

2.1.2传统聚合规则

两个类之间距离的度量方法是传统层次聚合算法的重要组成部分,它主要包括两个重要参数相似性度量方法和联接规则.这里采用欧式距离作为相似性度量方法,联接规则主要包括单联接规则、完全联接规则、类间平均联接规则、类内平均联接规则和沃德法.这几种联接规则可定义如下【叼(其中,含Ik叫|I是欧几里德范数,嘞和nk分别指类D,和q中的样本个数,C(nz斗nb2)表示从ni+ril个元素中抽出两个元素的不同组合的方法总数):单联接聚合规则:d(ot,ok)=rain。eoj.y。吧0x-y0;

全联接聚合规则:d(ot,Ok)=max,‰y。矗I|x-y|I;

类间平均联接聚合规则:d(oi,oD=(1/吩像)∑。哪I∑,吨。工一Y吣;

孙吉贵等:聚类算法研究51

类内平均联接聚合规则:d(q,吼)=(1/C(nt-I-nk,2))∑”啪㈦|lx-Yll;

沃德法:d(Dl,吼)=(1/(嘎-I-nk))∑,甙研.。。)IIx-矗112,其中,k是融合聚类的中心.

2.I.3新层次聚合算法

(1)Binary—Positive方法

2007年,Gelbard等人【4】提出了一种新的层次聚合算法,被称为正二进制(binary.positive)方法.该方法把待分类数据以正的二进制形式存储于一个二维矩阵中,其中,行表示记录(对象),列表示其属性的可能取值.记录对应的取值为1或者O,分别表示此记录有对应的属性值或者不存在对应属性值.因此,相似性距离计算只在被比较的二进制向量中的正比特位上进行,即只在取值为1的记录(对象)之间进行.有以Dice距离为代表的多种Binary.Positve相似性测量方法【10’111.

Gelbard等人采用Wine,Iris,Eeolic和Psychologybalance这4种数据集对11种聚类算法进行了实验,结果表明,对于此4种数据集中的任意一种数据的聚类结果,Binary.Positive等4种方法在聚类结果的准确率方面,从总体上来看都是最好的.同时他们还认为,将原始数据转换成正二进制会改善聚类结果的正确率和聚类的鲁棒性。对于层次聚类算法尤其如此.

(2)连续数据的粗聚类算法(roughclusteringofsequentialdata,简称RCOSD)

2007年.Kumar等人(12】面向连续数据提出了一种新的基于不可分辨粗聚合的层次聚类算法RCOSD.在该算法中,不可分辨关系被扩展成具有不严格传递特性的容差关系.使用相似性的上近似形成初始类,使用约束相似性的上近似概念形成后续类,其中的一个相对的相似性条件被用作合并准则.RCOSD的关键思想是寻找能捕捉数据序列的连续信息及内容信息的一个特征集,并把这些特征集映射到一个上近似空间,应用约束相似性上

近似技术获得粗类簇的上近似,其中一个元素可以属于多个类簇.该算法引入妒M作为Web数据的相似性度量方法,妒肘既考虑了项的出现次序又考虑了集合内容.该算法每一次迭代可以合并两个或多个类,所以加快了层次聚类速度.该算法能够有效挖掘连续数据,并刻画类簇的主要特性,帮助Web挖掘者描述潜在的新的Web用户组的特性.

PradeepKumar等人在本质连续的MSNBCWeb导航数据集上的实验结果表明,与使用序列向量编码的传统层次化聚类算法相比,RCOSD聚类算法是可行的.算法给出的描述方法能够帮助Web挖掘者鉴别潜在的有意义的用户组.

2.2划分式聚类算法

划分式聚类算法需要预先指定聚类数目或聚类中心,通过反复迭代运算,逐步降低目标函数的误差值,当目标函数值收敛时,得到最终聚类结果.

2.2.1K均值聚类

1967年,MacQueen首次提出了K均值聚类算法(K-means算法).迄今为止,很多聚类任务都选择该经典算法.该算法的核心思想是找出x个聚类中心c1,c2,...,c晒使得每一个数据点X,和与其最近的聚类中心c,的平方距离和被最小化(该平方距离和被称为偏差D).

K均值C尽me柚s)聚类算法【8】(对^个样本进行聚类)

KI[初始化】.随机指定K个聚类中心(c1,C2,...,c0;

K2[分配xi】.对每一个样本j。找到离它最近的聚类中心Cv,并将其分配到cv所标明类;

K3[修正“】.将每一个“移动到其标明的类的中心;

K4【计算偏差】.D=∑:1【miIl,-l,石d(而,c,)2】;

K5【D收敛?】.如果D值收敛,则return(cl,C29.o.9c0并终止本算法;否则,返回步骤K2.

K-means算法的优点与不足‘13】.优点:能对大型数据集进行高效分类,其计算复杂性为O(tKmn),其中,t为迭代次数Ⅸ为聚类数,tel为特征属性数,n为待分类的对象数,通常,K,m,K嘲.在对大型数据集聚类时,K-means算法比层次聚类算法快得多.不足:通常会在获得一个局部最优值时终止;仅适合对数值型数据聚类;只适用于聚类

52JournalofSoftware软件学报V01.19,No.1,January2008

结果为凸形(即类簇为凸形)的数据集.

以经典K-means算法为基础,研究者们提出了很多新的改进的K-means算法,下面对其中的一些算法加以介绍.

2.2.2K-modes算法

(1)K-modes.Huang算法[14】

在阐述K-modes算法之前,先对Means与Modes做简单介绍.

在K-means算法中,mean为类簇中心或称为质心,是指一个类簇中所有对象关于属性的均值,最初可随机指定.在K-modes算法中,modes可定义如下:设j每{墨兄,...夕‘}是一个数据集,V五∈石由m个分类属性{彳142,...,彳。}来描述Ⅸ可表示成向量瓴I—f12,...^。>,又可表示成属性一值对的合取式■l鼍砖1】^…^M。刁锄】;Q是X的一个mode,Q可表示成向量(91,q2,...,鼋。>,也可表示成属性?值对的合取式M1=91】^…^口。=g。】,Q需使∑渊…。矾(五,Q)取最小值,d1陇,Q)表示Ⅸ与Q之间的距离,Q不必是x的一个元素.

1998年,Huang为克服K-means算法仅适合于数值属性数据聚类的局限性,提出了一种适合于分类属性数据聚类的K-modes算法.该算法对K-means进行了3点扩展:引入了处理分类对象的新的相异性度量方法(简单的相异性度量匹配模式),使用modes代替means,并在聚类过程中使用基于频度的方法修正modes,以使聚类代价函数值最小化.

这些扩展允许人们能够直接使用K-means范例聚类有分类属性的数据。无须对数据进行变换.K-modes算法的另一个优点是modes能给出类的特性描述,这对聚类结果的解释是非常重要的.事实上,K-modes算法比K-means算法能够更快收敛.Huang使用众所周知的大豆疾病数据集对其算法进行了测试,结果表明,K-modes算法具有很好的聚类性能.进一步地,他用包含50万条记录和34个分类属性的健康保险数据集进行了测试,结

果证明,该算法在(聚类的)类数和记录数两个方面是真正可伸缩的.

与K-means算法一样,K-modes算法也会产生局部最优解,依赖于初始化modes的选择和数据集中数据对象的次序.初始化modes的选择策略尚需进一步研究.

1999年,Huang等人(”1证明了经过有限次迭代K-modes算法仅能收敛于局部最小值.

(2)K.modes.CGC算’法I”1

2001年,Chaturvedi等人提出一种面向分类属性数据(名义尺度数据)的非参数聚类方法,称为K-modes.CGC算法,类似于面向数值数据(间隔尺度数据)的传统K-means算法.与现存的大多数面向分类属性数据的聚类方法不同,K-modes.CGC算法显式地优化一个基于岛范数的损失函数.r‘在蒙特卡罗模拟中,Chaturvedi等人用K-modes.CGC和潜类算法[17】来恢复一个已知的潜在类结构,结果表明,两者具有相等的执行效率.然而,K-modes.CGC算法不但在速度方面比潜类算法快一个数量级,而且更少遇到局部最优的情况尉于包含大量分类变量的数据集,潜类算法计算极其缓慢,变得不可行.尽管在一些情况下,潜类算法比K-modes.CGC算法执行得更好,但Chaturvedi猜测在另外一些情况下,潜类算法很可能是不可行的.因此,Chaturvedi等人建议在执行聚类分析时应互补地使用这两种方法,同时给出了K-modes.CGC算法和潜类算法的经验比较,结果表明前者更占优势.

2003年,Huang[181证明了K-modes.CGC算法与K-modes.Huang算法是等价的.

2.2.3迭代初始点集求精K-modes算法

2002年,Sun等人㈣将Bradley等人的迭代初始点集求精算法【201应用于K-modes算法(Huang,1998).尽管Huang的K-modes算法能够聚类分类数据,但它需要预先决定或随机选择类(簇)的初始modes,并且初始modes的差异常常会导致截然不同的聚类结果.文中,Sun等人给出了一个关于应用Bradley等人的迭代初始点求精算法于K-modes聚类的实验研究.

Sun等人用知名大豆疾病[2l】数据集进行测试。大豆疾病数据包含47个记录,每个记录由35个特征描述.每个记录都被标记为以下4种疾病中的一种:DiaportheStemCanker,CharcoalRot,RihizoctoniaRootRot以及PhytophthoraRot,除了PhytophthoraRot有17个记录外,其他3种疾病都有10个记录.针对K-modes算法,分两

孙吉贵等:聚类算法研究53

种方案对大豆疾病数据集进行聚类实验:方案1随机选择初始点集:方案2采用迭代初始点集求精方法选择初始点集.实验结果表明,采用方案2的K-modes算法能够产生更高精度和更可靠的聚类结果.求精算法在给定数据集的一个小子样本集上进行,因此只需存储全部数据的内存空间的一小部分.然而,对于更大、更复杂分布的数据集,关于算法的可伸缩性和适应性方面还有许多问题需要研究.

2.2.4一致性保留K-means算法(K-means.CP)

2004年,Ding等人【22】提出一致性保留K-means算法(K-means.CP).最近邻一致性是统计模式识别中的一个重要概念,他们将这个概念扩展到数据聚类,对一个类中的任意数据点,要求它的七最近邻和k互最近邻都必须在该类中.他们研究了类的忌最近邻一致性的性质,提出了kNN和kMN一致性强制和改进算法,并提出了将类k最近邻或类k互最近邻一致性作为数据聚类的一种重要质量度量方法.他们选用互联网上20个新闻组数据集进行了实验,结果表明,k最近邻一致性、七互最近邻一致性以及算法聚类的正确率都得到显著改善.同时,这也表明局部一致性信息可帮助全局聚类目标函数优化.

算法K-means.CP.

1【初始化】.随机选择K个点作为初始类的中心(cl,C2,...,c0;

2[分配近邻集】.分配一个近邻集砖11"将S分配到离其最近的类印中,P=鹕miIl词,。j【∑。。j(而一%)23【更新类中心】.置mv=∑而。qxl/nv;//*更新聚类中心(即质心),m,是类G的中心,刀尸I刮

4【收敛否?】.质心不再移动,则终止算法;否则返回步骤2.II*‘,砌=∑,叱J∑而。G(而一m,)2判断收敛2.2.5模糊聚类算法

1969年,Ruspini首次将模糊集理论应用到聚类分析中,提出了模糊聚类算法(fuzzyc-means,简称FCM).

FCM算法是图像分割使用最多的方法之一,它的成功主要归功于为解决每个图像像素的隶属需要引入了模糊性.比之脆弱(crisp)或硬分割方法,FCM能够保留初始图像的更多信息.然而,FCM的一个缺点是不考虑图像上下文中的任何空间信息,这使得它对噪声和其他人造图像非常敏感.人们围绕FCM算法开展了大量研究,下面只对这方面的最新研究作简单介绍‘23’241.

2006年,李洁等人【25】提出基于特征加权的模糊聚类新算法NFWFCA.传统模糊尽均值算法、K-modes算法和尽原型算法都假定样本矢量的各维特征对聚类贡献相同.但在实际应用中,由于样本矢量的各维特征来自不同传感器,存在测量精度及可靠性等差异,样本矢量的各维特征对聚类影响不尽相同.以模糊忌原型算法为基础,算法NFWFCA采用ReliefF算法[261确定各维特征的权重,数值特征权值的计算方法为

∥:∥一丝=丝:+—diff_—miss".

RR

属性特征权值的计算方法为

∥:Ac一丝:竺+—diff_—m细c.

RR

从而修正目标函数为

J(w,P)=∑Ⅲ一一∑甩…,。嵋∑。乩.J疋J矗一办12+∑一一一嵋∑,。嵋神巧万。刍,p二)1.当以阡∽最小时,聚类结果最优.NFWFCA还可以将模糊尽均值、K-modes和尽原型等算法合而为一.当∥=0时,对应加权模糊尽均值算法;当五名0时,对应加权模糊K-modes算法;当脾O且五r≠O时,对应加权模糊尽原型算法.

通过各种实际数据集的测试,实验结果表明,该算法的聚类结果较之传统模糊量均值算法、K-modes算法和忌原型算法要更准确、更高效.同时,该算法还可以分析各维特征对聚类的贡献度,有效进行特征提取和优选,这对聚类算法研究及其应用都有一定的意义.

2007年,Cai等人【27】结合局部空间和灰度信息,提出快速通用FCM聚类算法FGFCM,其特点为:(1)用一个新因子岛作局部(空间和灰度)相似性度量,不仅确保图像的抗扰性,保留图像细节,而且除去了经验调节参数

JournalofSoftware软件学报V01.19,No.1,January2008

弼(2)分割时间只与灰度级数g有关,与图像大小Ⅳ(>>g)无关,因此,其聚类时间复杂性由O(Ncll)减少到O(qd9,其中,c为聚类数目^和,2(<^)分别为FCM和FGFCM的迭代次数;(3)FGFCM作为一个通用框架,可用于图像分割的很多其他算法,快速FCM,EnFCM,FGFCM_S1和FGFCM_S1等均可作为其特例被导出.关于合成和真实世界图像所进行的实验表明,FGFCM是通用的、简单的,并且适合于有噪声和无噪声的多种类型图像;另一方面,FGFCM是快速的,适合大幅灰度图像.Cai等人指出,进一步的研究工作包括算法的聚类有效性、自适应决定聚类数量以及图像增益场评估等其他应用研究.

2.2.6图论算法

1999年,Jain[3]指出著名的图论分裂聚类算法的主要思想是:构造一棵关于数据的最小生成树(minimal

spanningtree,简称MST),通过删除最小生成树的最长边来形成类.基于图论的聚类算法主要包括:RandomWalk,CHAMELEON,AUTOCLUST[28—301等.

2007年,Li【3l】提出一种基于最大曰距离子树的聚类算法MDS_CLUSTER,使用阈值剪枝,剪掉最小生成树中所有长度大于阈值验0的边,从而生成最大钷离子树集,其中每个最大曰距离子树的顶点集正好形成一个类.该算法的特点是:能发现任意形状非重叠的类,只要简单说明一个参数,该参数系指每个类中最少应包含的元素个数;还能提供一个分层体系结构中几个主要的类层次,这不同于由传统层次聚合方案所生成的包括所有层次的分层体系结构.此外,该算法能将小类中的元素作为数据集中的奇异值检测出来,如果奇异值数量相对大,则将这些奇异值合并成一个新类(称为背景类).模拟实验表明了该聚类方案的有效性.

2.3基于网格和密度的聚类算法

基于网格和密度的聚类方法是一类重要的聚类方法,它们在以空间信息处理为代表的众多领域有着广泛

应用.特别是伴随着新近处理大规模数据集、可伸缩的聚类方法的开发,其在空间数据挖掘研究子域日趋活跃.与传统聚类算法不同:基于密度的聚类算法,通过数据密度(单位区域内的实例数)来发现任意形状的类簇;基于网格的聚类算法,使用一个网格结构,围绕模式组织由矩形块划分的值空间,基于块的分布信息实现模式聚类.基于网格的聚类算法常常与其他方法相结合,特别是与基于密度的聚类方法相结合.

2001年,Zhao和Song[32】给出网格密度等值线聚类算法GDILC.密度等值线图能够很好地描述数据样本的分布.算法GDILC的核心思想——用密度等值线图描述数据样本分布.使用基于网格方法计算每一个数据样本的密度,发现相对的密集区域——类(或称为类簇).GDILC具有消除奇异值和发现各种形状的类的能力,它是一种非监督聚类算法.他们的实验表明,GDILC算法具有聚类准确率高和聚类速度快等特点.2004年,Ma[33】提出一种新的基于移位网格概念的基于密度和网格的聚类算法SGC.SGC是一种非参数类型的算法,它不需要用户输入参数,它把数据空间的每一维分成某些间隔以形成一个数据空间的网格结构.基于滑动窗口概念,为获得一个被更多描述的密度剖面引入了整个网格结构的移位概念,因此能够提高聚类结果的精度(准确度).与许多传统算法相比,该算法是高效的,因为类数据是基于网格单元的.该算法的主要优点可概括为:计算时间与数据集样本数无关;在处理任意形状类簇时展现了极好的性能;不需要用户输入参数;当处理大型数据集时’{艮少遇到内存受限问题.

2005年,Pileva等人【34】提出一种用于大型,高维空间数据库的网格聚类算法GCHL.GCHL将一种新的基于密度——网格的聚类算法和并行轴划分策略相结合,以确定输入数据空间的高密度区域——类簇.该算法能够很好地工作在任意数据集的特征空间中.GCHL的主要特点为:(1)只对数据扫描一次;将大型数据集划分成子部分,使用有限内存缓冲区一部分接一部分地进行处理;(2)将类簇看成是由数据空间中的低密度区域划分的对象密集区域,能发现任意形状的类簇;(3)能发现奇异值,对噪声数据不敏感;(4)将数据空间量化为用于形成网格数据结构的有限数量的单元,所有的聚类操作都在网格结构上进行;聚类快速,聚类时间独立于数据对象数目和数据次序;(5)适合大型、高维数据集的聚类.

Pileva等人的实验结果表明,该算法所获得的聚类结果是高质量的,具有发现凹/更深、凸/更高区域的能力,对奇异值和噪声的稳健性以及极好的伸缩性,这使其能够很好地应用于医疗和地理领域.

2006年,Micro等人【35】面向移动对象轨迹数据处理领域,基于简单的轨迹间距离概念,提出了一种基于密度

孙吉贵等:聚类算法研究55

的自适应聚类方法TFCTMO.。进一步考虑时态内在语义,给出时间聚焦方法以提高轨迹聚类效果.Mireo等人将对象间的空间距离概念扩展到轨迹间的时空距离概念。由此将基于密度的聚类方法应用到轨迹上.Mirco等人的关键思想是,将时态信息和空间信息相结合,使时态信息在移动对象轨迹聚类中起到了重要作用:根据所选取的时间区间的大小,轨迹间的相关程度是不同的.时间聚焦(tempgralfocusing)方法能够发现最有意义的时间区间,提高了移动对象轨迹聚类的质量.

2007年,Derya等人【36】对DBSCAN(density-basedspatialclusteringofapplicationswithnoise):进行了与辨识核对象、噪音对象和邻近类簇相关的3个边缘扩展。进而提出一种新的基于密度的聚类算法ST-DBSCAN(spatial.-temporalDBSCAN).与现有的基于密度聚类算法相比,该算法具有依据非空间值、空间值和时态值发现类簇的能力.

2.4其他聚类算法

2.4.1ACODF聚类算法

2004年,Tsai等人【37】提出一个新颖的具有不同偏好的蚁群系统(novelAs)一一Ac0DF(anoveldataclusteringapproachfordatamininginlargedatabases),用来解决数据聚类问题(当时未见用于数据聚类的ACO(antcolonyoptimization)算法的报道).设计一种不需要求解任何硬子问题(anyhardsub.-problem),但能给出近似最优解的聚类算法,是人们所期待的.ACODF能够快速获得最优解,它所包含的3个重要策略介绍如下:(1)应用不同偏好的(favorable)ACO策略.每个蚂蚁只需访问全部城市数的十分之一,并且访问城市数目逐次减少;几次循环之后,两点间相对短的路径的信息素浓度增加,两点间相对长的路径的信息素减少.因此,蚂蚁喜欢访问距离近的节点,并用自己的信息素加强此路径(由其喜欢访问的节点组成);最后形成具有较高浓度的

路径,即聚类完成.

(2)为减少获得局部最优解所需要访问的城市数量,对蚁群采用模拟退火策略.为此设计了两个公式:

ns(t+1)=ns(t)×L

其中,珊是蚁群在%函数期间访问的节点数,ns(t+1)表示当前蚁群的访问的节点数,,ns(0表示上‘次循环蚁群访问的节点数,r是一个常数(7印.95).

n/(t+1)=2xns(t)/3-ixns(t)/(runx3),

其中,矿是蚁群在乃函数期间访问的节点数,硬件1)表示蚁群当前访问的节点数,顿力表示上一次循环蚁群访问的节点数,run=2,f∈{l,2}.

(3)使用锦标赛(tournament):选择策略.与传统ACO不同,ACODF采用锦标赛选择技术进行路径选择.即从Ⅳ条路径中随机选择x条路径,再从这髟条路径中选择最短路径(悯.

Tsai等人分别进行了模拟和实际数据实验.模拟数据实验:首先选含579个数据的数据集,分别用ACODF,GKA和FSOM+K-means等3种算法进行非球形聚类;然后选含300个数据的数据集,依次用上面3种算法进行球形聚类.实际数据实验:采用732个客户信用卡上的8维实际数据,根据客户收入和消费进行聚类.实验结果表明,大多数情况下,,ACODF的搜索速度比GKA和FSOM+K-means更快,且错误率比它们更小.

3实验

为了对有一定代表性的聚类算法给出进一步的分析,我们从重点介绍的19种算法中选出8种算法,从UCI机器学习数据集储存库中选择了人们常用的5个数据集,分别针对分类属性数据和数值型数据对这8种算法进行了对比实验.实验的计算机环境为:处理器为PentiumM1AGHz,内存512MB,硬盘80G操作系统为WindowsXP,编程语言为VC6.O.

3.1数据集

本文采用Iris,Wine,,Soybean,.Zoo和Image数据集作为测试数据集,前4个数据集为常用的知名数据集,已知其聚类结果可靠、并取得一致意见,适合做聚类分析的基准数据集.本文选用Image数据集的主要目的是与Iris

56JournalofSoftware软件学报V01.19,No.1,January2008

和Wine这两个基准数据集进行比较.

针对数值型数据,分别采用Iris,Wine和Image等3个数据集进行测试.

Iris包含3个类,每类各有50个元素,每一类代表一种类型的鸢尾花,150个样本在3个类簇中分布均匀;其中,一类与另外两类线性可分,另外两类有部分重叠.Wine数据集具有好的聚类结构,它包含178个样本,13个数值型属性,分成3个类,每类中样本数量不同.Image取自UCI机器学习数据集,本文作者在众多文献中未见其被使用.该数据集是从包含7个户外图像集合的数据库中随机选取的,并采用手工进行分类.针对分类属性数据,分别采用Soybean和Zoo数据集进行测试.

Soybean数据集共有47个样本,具有35个属性,分为4类,是线性可分的,其所有属性都可作为分类属性.Zoo数据集共有101个记录,分为7类,是线性不可分的.在Zoo中,由16个属性来描述样本,其中15个为布尔属性值{0.1)和1个分类属性值属性(腿的数量){0,2,4,5,6,8).

3.2针对分类属性数据的实验

针对分类属性数据聚类,我们对K-modes算法、迭代初始点集求精K-modes算法分别采用线性可分大豆疾病数据和线性不可分动物园数据进行20次随机实验.

3.2.1大豆疾病数据实验

大豆疾病数据实验结果:我们采用Sun等人【19】提出的计算正确率的方法.正确率计算公式为

,-=∑‰。(q/n).

a,是出现在第f个类簇(执行算法得到的)及其对应的类(初始类)中的样本数,k是类数(这里有k--4,聚类数),一是数据集中样本总数(即47).实验结果见表1和表2.

Table1Clusteringresultsof20randomtestsforsoybeandiseasedataseton2algorithms

表1两种算法对大豆疾病数据集20次随机实验聚类结果

~、、=Accurac孓s,=冬K-m。des1‘唧hw蛳:燃ts∞缸锄眦

1wol—、-~)

9857

9468

89O3

77Ol

707l

682O

Table2Averageruntimeof20randomtestsforsoybeandiseasedataseton2algorithms

表2两种算法对大豆疾病数据进行20次随机实验的平均运行时间

垒!g!里尘翌堑!!!壁旦坚!!!g!!虫!f12

K-modesO.0081733l

!生!丝:!垫i望!!:P!i坐!!!!!!塑坚坐墨:巴!皇!!!:!!!:墼箜

从大豆疾病数据集的实验结果来看,迭代初始点集求精K-modes算法明显好于K-modes算法,两者的平均正确率分别为92.6%和84%.从算法运行时间来看,迭代初始点集求精K-modes算法所需时间略长.

3.2.2动物园数据实验

下面对K-modes算法和迭代初始点集求精K-modes算法,用动物园数据f21】进行20次随机实验,实验结果见表3.聚类正确率计算公式为r=l一错分样本个数/样本总数),且以下实验均采用该正确率计算公式.

Table3Clusteringresultsof20randomtestsforZOOdataseton2algorithms

表3两种算法对动物园数据进行20次随机实验的聚类结果

Algorithmn肘um!D哪el"Se(粤mlcstlu畔oe%m9a扒mmnalonlla.)acc舢ur。a蒜cyu/o,)觚盯agtrin。e。(斧嘲

I‘Jsl!丝堡垡竖!!型!!:22i!望望!!!!翌塑!墨:巴!生!!i!!:!i垒:丝:塑!i!i

孙吉贵等:聚类算法研究57

从以上实验结果可以得出,大豆集的分类效果整体好于动物园数据集,这与大豆集数据线性可分而动物园数据线性不可分是一致的.对于大豆集和动物园两个数据集,迭代初始点集求精K-modes算法的分类正确率都好于K-modes算法。这说明初始化时选择一个接近真实modes的初始值,通过不断迭代更容易得到正确的聚类结果.另外,从运行时间来看,迭代初始点集求精K-modes算法的运行时间比K-modes算法长一些.

3.3针对数值型数据进行实验

3.3.1层次聚合算法和K-means算法比较

针对数值型数据,我们分别采用层次聚合算法中的单一联接法、完全联接法、类间平均联接法、沃德法和划分式聚类算法中的K-means算法,用UCI中的数据集Iris,Wine,Image[29】随机进行了20次聚类实验,对比结果见表4..

Table4Clusteringresultsof20randomtestsforIris,Wine,Imagedatasetsonseveralalgorithms

表4几种算法对Iris,Wine,Image数据集20次随机实验的聚类结果

Averageaccuracyofrunning20cycles(%)Averagerunningtime(s)

Algorithm

IrisWineImageIrisWineImageNearestneighbor68.0042.7030.001.58310253.13461455.24l43

Furthestneighbor84.0067.4039.001.50425853.1433745.6708Betweengroupsaverage74.7061.2037.001.50265953.15256855.78528Wardmethod。89.3055.6060.oo2.3792654.77566258.95995K-means81.6087,9656.000.00255352250.003764250.045662835实验结果表明,传统层次聚合算法对聚类结构好的Wine数据集分类结果并不理想,这与传统层次聚合算法的再分配能力差相关(即若在初始阶段把一些数据分配给某个类簇,那么这些数据就不能再被分配给其他类

簇);而对于Image数据集来讲,无论层次聚合算法还是K-means算法都基本上不能对其进行正确分类,这可能与Image数据集的聚类结构等有关系;K-means的运行效率远高于传统层次聚合算法.我们还发现,聚类结果有其不可预见性,对于不同数据集合,同一算法的聚类正确率可能会大不相同;对于同一数据集合,采用不同的聚类算法,其聚类结果和效率也会有很大差异.因此在实际应用中,应根据待聚类数据集的数据类型、聚类结构(若可得到的话)选择相应的聚类算法,以取得最佳聚类效果.

3.3.2k最近邻一致性强制与保留算法K-means.CP关于不同足值的实验

选择Iris和Wine数值属性数据集,针对K-means.CP算法(采用欧式距离进行相似性计算)Ⅸ取lo,分别进行20次随机实验.实验结果(见表5)表明,无论对数据集Iris还是数据集Wine,都是在焉,-3时达到最高正确率.对于数据集Iris,K=3时正确率为84.65%:对于数据集Wine,K=3时正确率为64.00%.这说明K-means.CP算法对数据集的初始分类数具有一定的预测功能.此外,聚类结果在很大程度上依赖于所用相似性度量方式.Table5Clusteringresultsof20randomtestsforIris.WinedatasetsonK-means—CP

表5一致性保留K-means算法对Iris,Wine数据集进行20次随机实验的聚类结果

IrisWine

AverageaGcuracy(%)Averagerunningtime(s)Averageaccuracy(%)Averagerunningtime(s)K=I81.000.0151790755.450.0235329

盖._281.400.01264431556.550.043986175

X=384.65O.01297956564.000.08907495

捌82.500.0137178450.100.1892325

3.4K-meaR5算法与露最近邻一致强制和保留算法比较

为判断七最近邻一致强制和保留算法是否明显优于足均值(K-means)算法、kNN一致性与聚类质量之间有何关系,本文针对K-means算法、1最近邻一致强制和保留算法(扛l,简记为epl算法)和2最近邻一致强制和保留算法(k=-2,简记为ep2算法),关于Imagine,Iris,Wine,Glass,Ionosphere等数值型数据集进行了20次随机聚类实验.从聚类结果的正确率和总体质量(简称质量)两个方面来评价聚类结果之优劣.总体质量(质量)可用类间差异与类内差异之比来度量.一类簇的紧凑程度可用该类簇中每个数据到该类簇质心之间距离的平方和来刻画.整

58JournalofSoftware软件学报V01.19,No.1,January2008

个聚类的类簇内差、整个聚类之类簇间的差异以及总体质量则分别由下面的式(1卜式(3)来计算:

∑吨,。E矾d(x,瓦)2(1)

∑。;/dnd(弓,写)2(2)

∑吲删。d(ji:『,夏)2/∑同,。。∑xEc,d“瓦)2(3)其中,k为聚类结果包含的类簇数,C,表示类簇’,,瓦表示C,的质心,i,夏分别表示类衡和f的质心,d为距离函数.这里的质量只有相对意义,对相同算法不同数据集“质量值”间的相互比较没有意义.实验结果见表6.实验结果表明,从聚类正确率和总体质量来看乒最近邻一致强制和保留算法不优于K-means算法,kNN一致性与聚类质量无关.

Table6Clnsteringresultsof20randomtestsfor5datasetsoilK-means.cpl&cp2algorithms

表6K-means,epl和ep2算法关于5个数据集的20次随机实验聚类结果

Imal:ineAverageaccuracy(20times)Averagequality(20times)

cpl(1Mn0.6235714285714280.7780367508393800

ep2(2NN)0.6095238095238090.7647536177176ll0

K-means0.6323809523809520.73407635829I719O

IrisAverageaccuracy(20times)Averagequality(20times)

0000000000000.2586261724481240

epl(1NNl0.840

cp2(2NN)0.8923333333333330.3224891574120460

K-mesn80.8623333333333340.2902686923643llO

WineAverageaccuracy(20times)Averagequality(20times)

cpl(1NN)0.8983146067415730.0454332393240636

∞2(2NN)0.9053370786516850.0451553609767059

K-reCallS0.9469101123595500.0490987358800575

GlassAverageaccuracy(20times)Averagequality(20times)

epl(1NN)0.5119158878504670,400881509658679

ep2(2Nhn0.5315420560747660.404061886906006

K-means0.54252336448598l0.453522047430905

IonosphereAverageaccuracy(20times)Averagequality(20times)

epl(1NN)0.6918803418803420.0038124768513412

cp2(2NN)0.6820512820512820.0035553114620347

K-means0.7102564102564100.003784599450916l

4结论

尽管聚类分析有着几十年的研究历史,众多聚类算法相继被提出、相关的应用被展开,但聚类问题仍然存在着巨大的挑战.

通过对一些比较有代表性的聚类算法的总结。可以得出如下一些结论:

大多数聚类算法都需要预先给出参数,事实上,如果没有相关知识和经验,这在多数情况下是不可行的.对于层次化聚类算法,如何找到聚合或分裂过程的有效终止条件仍然是一个开问题.由此,开展非参数聚类算法、将聚类算法与参数自动生成算法相结合、展示聚类过程等研究可能富有前景.Binary.Positive方法(2007年)的研究表明,将数据转换成正二进制会改善聚类结果的正确率和鲁棒性.粗聚类算法RCOSD(2007)能够有效挖掘连续数据,并能描述类簇的主要特性,有助于理解聚类结果.

快速找到类的合理个数和较好的初始类中心点集,使算法终止于全局最优解等是划分式聚类算法的研究热点;对于K-means和FuzzyC-means算法,还有使其适合分类属性数据集等研究课题.K-modes—Huang算法适合分类属性数据,能给出类的特性描述,其对聚类数目和数据集规模都是可伸缩的,但已证明该算法经有限次迭代只能收敛于局部最优.2002年的迭代初始点集求精K-modes算法较好地解决了K-modes.Huang算法常因初始modes选择差异导致聚类结果截然不同的情况.2004年,一致性保留算法K-means.CP的作者提出将筮最近邻一致性作为聚类质量的度量方法,并给出局部一致性信息能支持全局聚类目标函数优化和聚类正确率有明显改善等结果,但我们的实验结果未能支持该论文的观点和结论.2006年,基于特征加权模糊聚类算法通过分析各维特征对聚类的贡献度,有效进行特征提取和优选。在聚类效率和准确率方面较传统模糊聚类算法都有明显提

孙吉贵等:聚类算法研究59

高.2007年,快速通用模糊聚类算法,一个通用框架,很多图像分割聚类算法都是其特例,它适合有噪声、无噪声多种类型图像和大幅灰度图像.

基于密度和网格聚类算法多用于时空信息处理、消除奇异值、发现各种形状的类簇,对噪声不敏感,适合大型、高维数据集等方面具有好的特性.网格密度等值线聚类算法GDILC(2001)用密度等值线图描述样本分布,具有消除奇异值和发现各种形状类簇的能力.基于密度和网格的聚类算法SGC(2004)是一种非参数类型的算法;计算时间与数据集规模无关;适于任意形状类簇.网格聚类算法GCHL(2005)能够发现任意形状类簇和奇异值,对噪声数据不敏感;聚类快速,聚类时间独立于数据规模和数据次序,伸缩性极好;适合大型、高维数据集.基于密度自适应聚类方法TFCTMO(2006)结合时态信息和空间信息,时间聚焦能够提高移动对象轨迹聚类质量.基于密度聚类算法SToDBSCAN(2007)能够综合使用非空间值、空间值和时态值实现聚类.在很多文献中,研究者们给出了各自的聚类算法评价指标,并只给出其算法的优点.我们认为,开展聚类算法(全面、客观的)评价标准、数据集特性的描述方法等研究,不仅时机成熟,而且有着重要意义.下面我们将给出关于文献【4】就11种算法和我们就8种算法所作的实验的分析,以作为对上述总结的补充.同时给出部分代表性算法的比较(见表7).

Table7Comparativeresultsofparttypicalclusteringalgorithms

表7部分代表性聚类算法比较

尽mdcs.H啪g1998Partitioncatcgory8皿1l姐ty1s咄itivcsphe佗Large,Desmbe.,1璐tcr。mcaste

‘categorvwell

竺!!兰竺:竺竺:竺竺量燮!璺当监』竺墨二.盏墨芝

F晒eatm'ecluwstereigh咄tedcEatculigd。eryansdimistial撕nctye,s

6Partition1iveSph唧smlI,mi】【Feat眦wcighted

。,..c砒cgorysimilarity。。hefeSmalI,mi】【FeatIl∞wc

tu五万cnlsteI】ng

口me。asIlre

。S∞sltlVe

5。竺哗。da诅2007HiemrchyS3M2一Sequ姐ccdatahge.scaleD掣ct。lustcrrou朗cL邺tenng’。feature

soc:。∞…哆D胁istani∞ceN叫s盅,。A妻≯茹gh-andMostspatilyusnedfor

‘(1lmcaston‘GCHL2005GridE~ulidean2。In:.二-

唑1仃aryo竺i∞jighInfomation

ACODF2004OthcrsE~ulidean1一..型璺8罂n,high‘Getop!掣Ⅷuc

!!!竺!!:坚:型!坚!:!!!!!!!!!!罂!

文献【4】对11种算法采用4个知名数据集进行实验.其中,4个数据集由2个类属性数据集和2个数值型数据集组成,由于对K-means和传统层次化算法采用了欧式距离作为相似性度量函数,所以针对2个类属性数据集所得到的测试结果不宜作为分析的依据.实验结果:对所选的2个数值型数据集,非层次化算法的分类结果优于层次化算法;对相同数据集,不同聚类算法产生了不同的聚类结果;对同~种算法、不同的数据集,其聚类的正确率不同.

本文对8种算法从UCI中选择4个知名聚类分析基准数据集和1个不常用数据集分别进行20次随机实验,并采用聚类正确率和运行时间作为衡量指标分别对数值型和类属性数据集进行实验;对K-means.CP算法,

60JournalofSoftware软件学报V01.19,No.1,January2008

选数值型数据集Ⅸ取不同值进行实验;对K-means.CP算法,选择相同数据集,用不同相似性度量方式进行测试.实验结果:对不同数据集、同一算法,其聚类正确率不相同;对同一数据集、不同聚类算法,其聚类正确率和效率会有很大差异;将K-means算法与K-means.CP算法使用不同数值型数据集进行了比较实验,结果表明。K-means.CP算法丝毫也不优于K-means算法,k最近邻一致性与聚类正确率无关,用k最近邻一致性刻画聚类质量是不合适的;对同一算法和同一数据集,不同的相似性度量方式,其聚类结果也不相同.综合文献【4】和本文的实验得出的主要结论是:聚类算法的聚类结果有一定的不可预见性,在实际应用中应根据数据类型选择合适的聚类算法(和可恰当的相似性度量方式),以取得最佳的聚类效果.针对不同数据集,进一步开展聚类算法预测分类数的能力研究.一

致谢感谢刘大有教授对本文提纲和一些重点内容所给予的有益建议,感谢金弟同学对K-means-CP算法所做的编程和实验.

References:

【l】JainAK,FlynnP1.Imagesegmentationusingclustering.In:AhujaN,BowycrI【’eds.AdvancesinImageUnderstanding:AFestchrififorAzrielRosenfeld.Piscataway:IEEEPress,1996.65—83.

【2】CadesI,SmythP,MannilaH.Probabilisticmodelingoftransactionaldatawithapplicationstoprofiling,visualizationandprcdicti衄,sigmod.In:Proc.ofthe7thACMSIGKDD.SanFrancisco:ACMPress,2001.37.46.http://www.sigkdd.org/kdd2001/【3】JainAl(’MurtyMN,FlynnPJ.Dataclustering:Areview.ACMComputingSurveys,1999,31(3):264-323.。

【4】GelbardR,GoldmanO,SpieglcrI.Investigatingdiversityofclusteringmethods:Anempiricalcomparison.Data&KnowledgeEngineering,2007,63(1):155-166.

[51JainAKDubesRC.AlgorithmsforClusteringData.Prentice—HallAdvancedReferenceSeries。1988.1-334.

【6】JainAK,DuinRPW,MaoJC.Statisticalpatternrecognition:Aredew.IEEETrans.onPatternAnalysisandMachineIntelligence,2000,22(1):4-37.

【7】SambasivamS,TheodosopoulosN.Advanceddataclusteringmethodsofminingwcbdocuments.ISSUESinInformingScienceandInformationTechnology,2006,(3):563—579.

【8】MarquesJP,Written;WuYF,Trans.PatternRecognitionConcepts,MethodsandApplications.2nded.,Beijing:TsinghuaUniversityPress,2002.51-74(inChinese).

【9】FredALN,LeitaoYMN.PartitionalVShierarchicalclusteringusingaminimumgrammarcomplexityapproach.In:Proc.oftheSSPR&SPR2000.LNCS1876.2000.193-202.http://www.sigmod.org/dblp/db/conf/sspr/sspr2000.html

【10】GelbardR,SpieglerI.Hempel’Sravenparadox:Apositiveapproachtoclusteranalysis.ComputersandOperationsResearch,2000,27(4):305—320.

【ll】ZhangB,SrihariSN.Propertiesofbinaryvectordissimilaritymeasures.In:Proc.oftheJCISCVPRIP2003.2003.26-30.http://www.ee.duke.edu/JCIS/

【12】KumarP,KrishnaPR,BapiRS,DeSK.Roughclusteringofsequentialdata.Data&KnowledgeEngineering,2007,3(2):183-199.【13】HuangZ.Afastclusteringalgorithmtoclusterverylargecategoricaldatasetsindatamining.In:Proc.oftheSIGMODWorkshop

onResearchIssuesonDataMiningandKnowledgeDiscovery.Tucson,1997.146-151.http://www.informatik.uni—trier.de/一ley/db/conf/sigmod/sigmod97.html

[141Huangz.Extensionstothek-meensalgorithmforclusteringlargedatasetswithcategoricalvalues.DataMiningandKnowledge,DiscoveryII,1998,(2):283-304.

【15】HuangZ,NgMA.Fuzzyk-modesalgorithmforclusteringcategoricaldata.[EEETrans.onFuzzySystems,1999,7(4):446-452..[161ChaturvcdiAD,GreenPE,CarrollJD.K-modesclustering.JournalofClassification,2001,18(1):35—56.

【17】GoodmanLA.Exploratorylatentstructureanalysisusingbothidentifiableandunidentifiablemodels.Biometrika,1974,61(2):。215-231.

【18】HuzngZX,MichaelK.AnoteonK-modesclustering.JournalofClassification,2003,20(2):257-26.

【19】SunY,ZhuQM,Chenzx.Aniterativeinitial—pointsrefinementalgorithmforcategoricaldataclustering.PaRernRecognitionLetters,2002,23(7):875—884.

【20】BradleyPS,FayyadUM.Refininginitialpointsfork-meansclustering.In:Proc.ofthe15thInternetConf.onMachineLearning.SanFrancisco:MorganKaufmannPublishers。1998.91-99.http://www.cs.wise.edu/icml98/

孙吉贵等:聚类算法研究

【21】

[221

【231

【24】

【25】

【26】

【27】

【28】

[29】

【30】

【31】

【32】

【33】

【34】

【35】

【36】

【37】6l

http://www.ics.uci.ed“‘忸lear州databascs/

DingC,HeX.K-Nearest-Nei【ghborindataclustering:Incorporatinglocalinformationintoglobaloptimization.In:Proc.oftheACMSymp.onAppliedComputing.Nicosia:ACMPress.2004.584—589.http:llwww.a锄.ors/conferences/sac/sac2004/

LyerNS,KandelA,SchneiderM.Feature-Basedfuzzyclassificationforinterprctationofmammograms.FuzzySetsSystem,2000,114(2):271-280.

YangMS。HuYJ。LinKCR’LinCCL.SegmenttationtechniquesfortissuedifferentiationinMRIofophthalmologyusingfuzzyclusteringalgorithm.JournalofMagneticResonanceImaging,2002,(20):173—179.

LiJ,GaoXB,JiaoLC.Anewfeatureweightedfuzzyclusteringalgorithm.ACTAElectronicaSinica,2006,34(1):412-420(inChinesewithEnglishabstract).

Kononenko

I.Estimatingattributes:Analysisandextensionsofrelief.In:Proc,ofthe17thEuropeanConf.OnMachineLearning.LNCS784。1994.171-182.

CaiWL,ChenSC,ZhangDQ.Fastandrobustfuzzyc?meal坞clusteringalgorithmsincorporatinglocalinformationforimagesegmentation.PatternRecognition,2007,40(3):825—833.

HarelD。KorenY.Clusteringspatialdatausingrandomwalks.ha:Proc.ofthe7thACMSIGKDDInt’1Conf.KnowledgeDiscoveryandDataMining.NewYork:ACMPress,2001.281-286.http://www.sigkdd.org/kdd2001/

KarypisG,HanEH,KumarV.CHANELEON:Ahierarchicalclusteringalgorithmusingdynamicmodeling.IEEEComputer,1999,2(8):68—75.

Estivill-CastroV,LeeI.AUTOCLUST:Automaticclusteringviaboun血ryextractionforminingmassivepoint-datasets.In:AbrahartJ,CarlisleBH。eds.Proc.ofthe5thInt’lConf.onGeocomputation.2000.23-25.http://www.geocomputation.ors/2000/index.html

“Ⅵ.Aclustering

algorithmbasedonmaximalO-distantsubtrees.PatternRecognition,2007,40(5):1425—1431.ZhaoYC,SongJ.GDILC:Agrid-baseddensityisolineclusteringalgorithm.ha:ZhongY)(’CuiS,YangY,eds.Proc.oftheIntemetCon£onInfo-Nct.Beijing:IEEEPress,2001.140-145.http:Hieeexplore.ieee.org/iel5/7719/2116I/00982709.pdf?

MawM,ChowE,TommyWS.Anewshiftinggridclusteringalgorithm.PaUemRecognition,2004,37(3):503-514.

PilevarAH,SukumarM.GCHL:Agrid-clusteringalgorithmforhigh?dimensionalverylargespatialdatabases.PatternRecognitionLetters,2005,26(7):999—1010.

NanniM,PedreschiD.Time-Focusedclusteringoftrajectoriesofmovingobjects.JournalofIntelligentInformationSystems,2006,27(3):267—289.

BirantD,KutA.ST?DBSCAN:Analgorithmforclusteringspatial-temporaldata.Data&KnowledgeEngineering,2007,60(1):208—221.

TsaiCF,TsaiCW,WuHC,YangT.ACODF:Anoveldataclusteringapproachfordatamininginlargedatabases.JournalofSystemsandSoftware,2004,73(1):133—145.

附中文参考文献:

【8】MarquesJP,著;吴逸飞,译.模式识别——原理、方法及应用.jB京:清华大学出版社。2002.51—74

【25】李洁,高新波,焦李成.基于特征加权的模糊聚类新算法.电子学报,2006,34(1):412-420.

孙吉贵(1962一),男,辽宁庄河人,博士,教授,博士生导师,CCF高级会员。主要研究领域为人工智能,约束规划,决策支持系统.

刘杰(1973一),女,博士生,讲师,主要研究领域为数据挖掘。模式识别.糌je(1984--),男,硕士生,主要研究领域

为数据挖掘.

相关主题