搜档网
当前位置:搜档网 › 特征选择算法综述及基于weka的性能比较

特征选择算法综述及基于weka的性能比较

特征选择算法综述及基于weka的性能比较
特征选择算法综述及基于weka的性能比较

数据挖掘中的特征选择算法综述及基于WEKA的性能比较

陈良龙

(湖南大学信息科学与工程学院)

摘要:自进入21世纪以来,随着信息技术的飞速发展,产生了海量的具有潜在应用价值的数据,将这些数据转换成有用的信息和知识的需求也越来越迫切,因此数据挖掘引起了信息产业界和整个社会的极大关注。特征选择作为一种常见的降维方法,在数据挖掘中起到不可忽视的作用。本文首先介绍了数据挖掘处理对象的趋势,然后概述了特征选择算法,最后通过数据挖掘软件WEKA比较了分别基于Filter和Wrapper方法的特征选择算法的性能。

关键词:数据挖掘;特征选择;WEKA;Filter;Wrapper;性能比较

A survey of feature selection algorithm in Data Mining and the performance

comparison based on WEKA

Abstract: As the mass of data which have potential application and value have been created by the rapid development of information technology since the 21st century, the needs to transferring these data into useful information and knowledge are being more and more urgent, so the Data Mining caused the whole society and the information industry of great concern. Feature selection is critical to Data Mining for that it is a common method to reduce dimensions. The tendency of Data Mining’s handler object is first introduced in this paper, then introduction of the feature selection algorithm, and finally compared the performance of algorithms based on methods of Filter and Wrapper, respectively, by using WEKA (i.e. software used in Data Mining).

Keywords: Data Mining; Feature selection; WEKA; Filter; Wrapper; Performance comparison

1 引言

数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、

但又是潜在有用的信息和知识的过程[1]

。还

有很多和这一术语相近似的术语,如从数据库中发现知识(KDD)、数据分析、数据融合(Data Fusion)以及决策支持等。人们把原始

数据看作形成知识的源泉,就像从矿石中采矿一样。原始数据可以是结构化的,如关系数据库中的数据,也可以是半结构化的,如文本、图形、图像数据,甚至是分布在网络上的异构型数据。随着信息技术的飞速发展,越来越复杂的数据成为数据挖掘的处理对象,如文本数据、基因序列等。一般的,这些对象具有几十、几百甚至几万个属性。通过将这些对象表示成高维属性空间中的点

或向量,把客观世界中的对象集用高维数据

集合来表示[2]

。然而,随着不相关属性的增

加,训练样本的数目也将急剧增加[3]

。一种

解决的方法是建立高效的面向高维数据的算法,另外一种则是降低维度。并且由于这些属性之间很有可能存在冗余等问题,选择好的特征算法成为解决这些问题的可行方法。

特征选择(也叫属性约简)能够为特定的应用在不失去数据原有价值的基础上选择最小的属性子集,去除不相关的和冗余的属性;它能提高数据的质量,加快挖掘的速度并且使得挖掘出的规则更容易理解。

2 特征选择算法的4个要素

一般特征选择算法必须确定以下4个要素:1)搜索起点和方向;2)搜索策略:3)特

征评估函数;4)停止准则。

2.1 搜索起点和方向

搜索起点是算法开始搜索的状态点,搜索方向是指评价的特征子集产生的次序。搜索的起点和方向是相关的,他们共同决定搜索策略。一般的,根据不同的搜索起点和方向,有以下4中情况:

(1)前向搜索(SFG):从空集S开始,依据某种评价标准,随着搜索的进行,从未被包含在S里的特征集中选择最佳的属性不断加入S。

(2)后向搜索(SBG):从全集S开始,依据某种评价标准不断从S中选择最不重要的属性,直到达到某种停止标准。它是对前向搜索的补充。

(3)双向搜索(BG):双向搜索同时从两个方向开始搜索。一般搜索到特征子集空间的中部时,需要评价的子集数将会急剧增加。当使用单向搜索时,如果搜索要通过子集空间的中部就会消耗掉大量的搜索时间,所以双向搜索是比较常用的搜索方法。

(4)随机搜索(RG):随机搜索从任意的方向开始,对属性的增加和删除也有一定的随机性。这样可克服局部极小。LVF算法比较

有代表性。

2.2 搜索策略

假设原始特征集中有n个特征(也称输入变量),那么存在2n?1个可能的非空特征子集。搜索策略就是为了从包含2n?1个

候选解的搜索空间中寻找最优特征子集而

采取的搜索方法。一般分为3种搜索策略:(1)穷举式搜索:它可以搜索到每个特

征子集。缺点就是它会带来巨大的计算开销,尤其是当特征数比较大时,计算时间很长。分支定界法(Branch and Bound,BB)通过

剪枝处理缩短搜索时间。

(2)序列搜索:它避免了简单的穷举式

搜索,在搜索过程中依据某种次序不断向当前特征子集中添加或剔除特征。从而获得优化特征子集。比较典型的序列搜索算法如:前向后向搜索、浮动搜索、双向搜索、序列向前和序列向后算法等。序列搜索算法较容易实现,计算复杂度相对较小,但容易陷入局部最优。

(3)随机搜索:由随机产生的某个候选

特征子集开始,依照一定的启发式信息和规则逐步逼近全局最优解。例如:遗传算法(Genetic Algorithm,GA)、模拟退火算法(Stimulated Annealing,SA)、粒子群算法(Particl Swarm Optimization,PSO)和免疫

算法Immune Algorithm,IA)等。

2.3 特征评估函数

评价标准在特征选择过程中扮演着重

要的角色,它是特征选择的依据。评价标准可以分为两种:一种是用于单独地衡量每个特征的预测能力的评价标准;另一种是用于评价某个特征子集整体预测性能的评价标准。分别对应两种重要的方法类型:Filter

和Wrapper方法。

在Filter[4]方法中,一般不依赖具体的

学习算法来评价特征子集,而是借鉴统计学、信息论等多门学科的思想,根据数据集的内在特性来评价每个特征的预测能力,从而找出排序最优的的若干特征组成特征子集。而Wrapper方法中,用后续的学习算法嵌入到特征选择过程总,通过测试特征子集在此算法上的预测性能来决定其优劣,而极少关注特征子集中每个特征的预测性能。因此,后者并不要求最优特征子集中的每个特征都

是最优的

5

2.4 停止准则

停止准则决定什么时候停止搜索,即结束算法的执行。它与评价准则或搜索算法以及具体的应用需求均有关联。常见的停止准则有:

(1)执行时间:事先规定算法执行的时间,到达设定时间就强制终止算法;

(2)评价次数:设定算法运算次数,一

般用于随机搜索;

(3)设置阈值:设置一个评价阈值,到

达设定值就结束执行。不过这个阈值可能出现过低或过高的情况。

3 特征选择算法分类

从特征选择算法的四个要素可见,重点

在于选择最优特征子集所需要的两个步骤

上,即搜索策略和评价标准。下文将分别按照这两个步骤的标准对特征选择算法进行分类。

3.1 按照搜索策略分类

按照算法在进行特征选择过程中所选择的搜索策略,可以把特征选择算法分为全局最优特征选择算法、随机搜索策略的特征选择算法和序列搜索策略的特征选择算法3类。本文重点介绍序列搜索策略的特征选择算法。

3.1.1 全局最优搜索的特征选择算法

到目前为止,唯一采用全局最优搜索策略得到最优结果的特征选择方法是“分支定

界(Branch and Bound)”算法6

。采用这种

搜索策略的特征选择算法,能保证事先确定优化特征子集中特征数目的情况下,找到相对可分性判据而言的最优特征子集。但是这种策略存在3个主要的问题:1)事先确定最优特征子集中特征数目的多少比较困难;2)合乎问题要求的满足单调性的可分性判据难以设计;3)当处理高维度问题,算法开销大。

3.1.2 随机搜索策略的特征选择算法

特征选择本质上是一个组合优化问题,求解这类问题可采用非全局最优目标搜索

方法,其实现是依靠带有一定智能的随机搜索策略。它在计算过程中把特征选择问题和模拟退火算法、禁忌搜索算法、遗传算法、粒子群算法或随机重采样过程结合,以概率推理和采样过程作为算法基础。遗传算法在这一领域的应用最为广泛。W.Siedlechi等学者提出早期的基于遗传算法和K近邻分

类器的特征选择方法。然后是J.Y柚g等学者又提出了使用遗传算法结合人工神经

网络分类器进行特征选择的方法

7

通常此类方法是根据特征子集在训练

集上的分类性能作为特征子集的评价准则。该方法可以得到一个近似最优解,有较好的应用效果。但是,当遇到特征数较多的情况,算法的运行会耗费大量的时间。

3.1.3 序列搜索策略的特征选择算法

(1)单独最优特征组合。该方法基于计算个特征单独使用时的判据值对特征进行

排序。取前d个特征组合为最优特征子集。很多情况下,这种算法能去除一些不相关的变量,可以作为一种特征预选方法。

(2)序列向前选择方法(Sequential Forward Selection, SFS)。一种“自上而下”的搜索方法,即向前搜索。这种算法计算量相对较小,但是没有充分考虑特征之间的相关性。

(3)广义序列向前选择(Generalized Sequential Forward Selection, GSFS)。该方法是SFS的加速方法,一次可以加入多个特征。该方法在特征选择相关性上有一定提高,但是增加了计算量,且相关性的问题没有彻底解决。

(4)序列向后选择(Sequential Backward

Selection, SBS)。一种“自底向上”的搜索方法,即向后搜索。这种方法的计算量比SFS 要大,但是充分考虑了特征之间的相关性。在采用同样合理的准则函数的时候,它的实际计算性能和鲁棒性优于SFS算法。

(5)广义序列向后选择(Generalized Sequential Backward Selection, GSBS)。相对于SBS而言,一次可以剔除多个不合要求的特征。这种方法的速度较快,性能相对较好。但是有时候特征剔除操作太快,容易丢失重要的特征。

(6)增l去r选择方法。这种方法根据l 和r的大小来决定选择SFS还是SBS,它允许特征选择过程中进行回溯。因而比SFS运算效果要好,比SBS计算速度要快。

(7)广义增l去r选择方法。用GSFS和GSBS作为折中,其操作较为复杂,难以制定实际的规则加以利用。

(8)浮动搜索方法。采用浮动步长进行搜索,这是一种比较实际的改良机制。

从目前来看,随机搜索策略和启发式搜索策略使用较为广泛。

3.2 按照特征子集评价策略分类

根据特征选择过程中是否依赖后续的

学习分类方法来评价特征子集,可以分为Filter方法、Wrapper方法以及两者的折中3类。

3.2.1 基于Filter评价策略的特征选择方法

Filter方法是一种计算效率较高的方法,独立于后续的分类方法,采用一些基于信息统计的启发式准则

8

来评价特征的预测能力。目前用的最多的是相关测量法、类间和类内距离测量法、信息熵法、ReliefF等等。其主要问题是当特征和分类器关联较大时,不一定找到规模较小的最优特征子集。

3.2.2基于Wrapper评价策略的特征选择方法

Wrapper方法在特征选择时依赖具体分类方法。根据测试集在分类器上的性能表现来决定特征子集的优劣。该方法的效率不及Filter,但是其所选的优化特征子集的规模相对要小一些。目前,该类方法是研究的重点。当前有决策树、遗传算法、人工神经网络、支持向量机SVM等作为分类器。

3.3.3 Filter和Wrapper折中的策略

基于Filter方法计算开销较小以及Wrapper方法较好的预测能力,许多学者提出折中的方法,用前者作为分类的预选器,后者在预选特征集上做进一步的特征精选。如Huang提出的一种两阶段组合式特征选择算法

9

然而,目前的二阶段组合式特征选择算法的性能还收到以下因素的影响:1)Filter 模型中采用何种特征评价准则较好;2)在高维情况下,第二阶段的Wrapper方法的计算开销仍然较大。因而,出现了很多单纯利用特征子集的预测能力或者特征及规模作

为选择依据的方法,如基于多目标免疫优化的特征方法

10

等。

4 WEKA中的特征选择算法及性能比较实

该软件中根据特征选择过程的重要的两

个步骤,即搜索策略和评价策略,嵌入了相关的方法。本文分别测试了Filter类方法和Wrapper类方法的性能,测试数据为一组银行数据。

4.1 WEKA中的搜索策略方法

按照搜索策略的分类,这里列举各个分

类的几种方法:1)全局最优搜索方法:BestFirst(最好优先),ExhaustiveSearch(穷举搜索);2)随机搜索方法:RandomSearch (随机搜索),ScatterSearchV1(离散搜索);3)序列搜索方法:a.单独最优组合:RankSearch(评估器计算属性判据值并排序),Ranker(属性判据值排序);b.向前搜索:LinearForwardSelection(线性向前搜索);c.向后搜索:FCBFSearch(基于相关性分析的

特征选择方法);d. 增l去r选择方法:RaceSearch(比较特征子集的交叉验证错误情况),GreedyStepwise(向前或向后的单步搜索);e. 浮动搜索方法:SubsetSizeForwardSelection(按照特征子集

大小向前线性搜索,这是线性搜索的扩展);

f.启发式搜索:GeneticSearch(基于Goldberg (1989)提出的简单遗传算法),TabuSearch (禁忌搜索)。4.2 WEKA中的评价策略方法

按照评价策略的两大方法,上文已经提到,这两大方法基于是否使用后续的分类方法来区别,且Filter方法注重对单个属性进行评价,Wrapper方法侧重对特征子集进行评价。这里列举各个分类的几种方法:1)Filter方法:ChiSquaredAttributeEval——根据与分类有关的每一个属性的卡方值(统计学词汇)进行评估;FilteresAttributeEval——运行在任意过滤器之后的数据上的任意属性评估;GainRatioAttributeEva——根据与分类有关的每一个属性的增益比进行评估;InfoGainAttributeEval——根据与分类有关的每一个属性的信息增益进行评估;SignificanceAttributeEva——计算双向功能的概率意义评估属性值。2)Wrapper方法:CfsSubsetEval——根据属性子集中每一个特征的预测能力以及它们之间的关联性进行评估;ClassifierSubsetEval——根据训练集或测试集之外的数据评估属性子集;WrapperSubsetEval——使用一种学习模式对属性集进行评估;ConsistencySubsetEval ——根据利用属性子集进行分类时得到的分类值的一致性进行评价。3)Filter与Wrapper结合:OneRAttributeEval——根据OneR分类器评估属性。

4.3 WEKA 中特征选择算法的性能比较实例

本次比较基于的数据集见表1。根据其中的属性可知,married 和single 两个属性是冗余,我们通过不同方法来测试是否

能够识别出这个冗余,以及比较它们的性能。 下面列举两组算法的测试结果及比较: (1)评价策略ChiSquaredAttributeEval 和搜索策略Ranker :得出的结果是剔除了属性single ,选择的属性为其余12个。

(2)评价策略ConsistencySubsetEval 和搜索策略GreedyStepwise :可知选择的属性为id 。

从两者的结果来看,按照第一组算法的得分情况,属性id 是得分最高,与后者的结

果意也是一致的。由于数据集比较小,计算速度上无法获得具体的细节,就精确度来讲,后者是相对而言较好。因为属性id 可以作为最优的特征来描述数据集。

5 结论

本文从特征选择的四个要素出发,综合性的介绍了数据挖掘中的特征选择算法,并且对目前的一些特征选择算法做了具体的分类。通过WEKA 对一组简单的数据在两组特征算法上做了比较,得出的结论符合理论的分析结果。当然,由于使用的数据集比较小,包括实例数目和属性维度都较小,所以得出的结果不能得出两者之间的开销问题。

参考文献

[1] Jiawei Han ,Micheline Kamber 著,范明,孟小峰译.数据挖掘概念与技术(Data Mining :Concepts and Techniques).北京:机械工业出版社,2008.

[2] 孙婧昊.面向高维数据挖掘的特征选择方法研究.中山大学硕士论文,2006.

[3] Xing E, Jordan M, Karp R. Feature selection for high-dimensional genomic microarray data

表1-测试数据集

[C]// Intl. conf. on Machine Learning, 2001: 601-608.

[4] Inza I,Larranaga P,Blanco R.Filter versus wrapper gene selection approaches in DNA microarray domains[J]. Artificial Intelligence in Medicine,2004,31(2):91-103.

[5] 冯斌.群体智能优化算法及其在生化过程控制中的应用研究[D].无锡:江南大学,2005.

[6] Chen Xue-wen.An improved branch and bound algorithm for feature selection[J].Pattern Recognition Letters,2003,24(12):1925-1933.

[7] Yang J,Honavar V.Feature subset selection using a genetic algorithm[J].IEEE Intelligence Systems,1998,13(2):44-49.

[8] Jain A K,Duin R DW,Mao J C.Staisitical pattern recongnition[J]. A review.IEEE Trans on Pattern Analysis and Machine Intelligence,2000,22(1):4-37.

[9] Huang Chen-jung, Yang Dian-xiu, Chuang Yi-ta. Application of wrapper approach and composite classifier to the stock trend prediction[J]. Expert Systems with Application,2008,4(34):2870-2878.

[10] 计智伟,胡珉,尹建新.特征选择算法综述.电子设计工程:第19卷,第9期.2011.

特征选择方法在建模中的应用

特征选择方法在建模中的应用 ——以CHAID树模型为例 华东师范大学邝春伟

特征选择是指从高维特征集合中根据某种评估标准选择输出性能最优的特征子集,其目的是寻求保持数据集感兴趣特性的低维数据集合,通过低维数据的分析来获得相应的高维数据特性,从而达到简化分析、获取数据有效特征以及可视化数据的目标。 目前,许多机构的数据均已超载,因此简化和加快建模过程是特征选择的根本优势。通过将注意力迅速集中到最重要的字段(变量)上,可以降低所需的计算量,并且可以方便地找到因某种原因被忽略的小而重要的关系,最终获得更简单、精确和易于解释的模型。通过减少模型中的字段数量,可以减少评分时间以及未来迭代中所收集的数据量。 减少字段数量特别有利于Logistic 回归这样的模型。

SPSS Modeler是一个非常优秀的数据挖掘软件。它的前身是SPSS Clementine及PASW Modeler。该软件 的特征选择节点有助于识别用于预测特定结果的最重要的字段。特征选择节点可对成百乃至上千个预测变量进行筛选、排序,并选择出可能是最重要的预测变量。最后,会生成一个执行地更快且更加有效的模型—此模型使用较少的预测变量,执行地更快且更易于理解。 案例中使用的数据为“上海高中生家庭教育的调查”,包含有关该CY二中的304名学生参与环保活动的信息。 该数据包含几十个的字段(变量),其中有学生年龄、性别、家庭收入、身体状况情况等统计量。其中有一个“目标”字段,显示学生是否参加过环保活动。我们想利用这些数据来预测哪些学生最可能在将来参加环保活动。

案例关注的是学生参与环保活动的情况,并将其作为目标。案例使用CHAID树构建节点来开发模型,用以说明最有可能参与环保活动的学生。其中对以下两种方法作了对比: ?不使用特征选择。数据集中的所有预测变量字段 均可用作CHAID 树的输入。 ?使用特征选择。使用特征选择节点选择最佳的4 个预测变量。然后将其输入到CHAID 树中。 通过比较两个生成的树模型,可以看到特征选择如何产生有效的结果。

常见的特征选择或特征降维方法

URL:https://www.sodocs.net/doc/572418563.html,/14072.html 特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。 特征选择主要有两个功能: 1.减少特征数量、降维,使模型泛化能力更强,减少过拟合 2.增强对特征和特征值之间的理解 拿到数据集,一个特征选择方法,往往很难同时完成这两个目的。通常情况下,选择一种自己最熟悉或者最方便的特征选择方法(往往目的是降维,而忽略了对特征和数据理解的目的)。 在许多机器学习的书里,很难找到关于特征选择的容,因为特征选择要解决的问题往往被视为机器学习的一种副作用,一般不会单独拿出来讨论。本文将介绍几种常用的特征选择方法,它们各自的优缺点和问题。 1 去掉取值变化小的特征Removing features with low variance 这应该是最简单的特征选择方法了:假设某种特征的特征值只有0和1,并且在所有输入样本中,95%的实例的该特征取值都是1,那就可以认为这个特征作用不大。如果100%都是1,那这个特征就没意义了。当特征值都是离散型变量的时候这种方法才能用,如果是连续型变量,就需要将连续变量离散化之后才能用,而且实际当中,一般不太会有95%以上都取某个值的特征存在,所以这种方法虽然简单但是不太好用。可以把它作为特征选择的预处理,先去掉那些取值变化小的特征,然后再从接下来提到的特征选择方法中选择合适的进行进一步的特征选择。

2 单变量特征选择Univariate feature selection 单变量特征选择能够对每一个特征进行测试,衡量该特征和响应变量之间的关系,根据得分扔掉不好的特征。对于回归和分类问题可以采用卡方检验等方式对特征进行测试。 这种方法比较简单,易于运行,易于理解,通常对于理解数据有较好的效果(但对特征优化、提高泛化能力来说不一定有效);这种方法有许多改进的版本、变种。 2.1 Pearson相关系数Pearson Correlation 皮尔森相关系数是一种最简单的,能帮助理解特征和响应变量之间关系的方法,该方法衡量的是变量之间的线性相关性,结果的取值区间为[-1,1],-1表示完全的负相关(这个变量下降,那个就会上升),+1表示完全的正相关,0表示没有线性相关。 Pearson Correlation速度快、易于计算,经常在拿到数据(经过清洗和特征提取之后的)之后第一时间就执行。 Pearson相关系数的一个明显缺陷是,作为特征排序机制,他只对线性关系敏感。如果关系是非线性的,即便两个变量具有一一对应的关系, Pearson相关性也可能会接近0。 2.2 互信息和最大信息系数Mutual information and maximal information coefficient (MIC)

文本分类中的特征提取和分类算法综述

文本分类中的特征提取和分类算法综述 摘要:文本分类是信息检索和过滤过程中的一项关键技术,其任务是对未知类别的文档进行自动处理,判别它们所属于的预定义类别集合中的类别。本文主要对文本分类中所涉及的特征选择和分类算法进行了论述,并通过实验的方法进行了深入的研究。 采用kNN和Naive Bayes分类算法对已有的经典征选择方法的性能作了测试,并将分类结果进行对比,使用查全率、查准率、F1值等多项评估指标对实验结果进行综合性评价分析.最终,揭示特征选择方法的选择对分类速度及分类精度的影响。 关键字:文本分类特征选择分类算法 A Review For Feature Selection And Classification Algorithm In Text Categorization Abstract:Text categorization is a key technology in the process of information retrieval and filtering,whose task is to process automatically the unknown categories of documents and distinguish the labels they belong to in the set of predefined categories. This paper mainly discuss the feature selection and classification algorithm in text categorization, and make deep research via experiment. kNN and Native Bayes classification algorithm have been applied to test the performance of classical feature detection methods, and the classification results based on classical feature detection methods have been made a comparison. The results have been made a comprehensive evaluation analysis by assessment indicators, such as precision, recall, F1. In the end, the influence feature selection methods have made on classification speed and accuracy have been revealed. Keywords:Text categorization Feature selection Classification algorithm

蚁群算法综述

智能控制之蚁群算法 1引言 进入21世纪以来,随着信息技术的发展,许多新方法和技术进入工程化、产品化阶段,这对自动控制技术提出新的挑战,促进了智能理论在控制技术中的应用,以解决用传统的方法难以解决的复杂系统的控制问题。随着计算机技术的飞速发展,智能计算方法的应用领域也越来越广泛。 智能控制技术的主要方法有模糊控制、基于知识的专家控制、神经网络控制和集成智能控制等,以及常用优化算法有:遗传算法、蚁群算法、免疫算法等。 蚁群算法是近些年来迅速发展起来的,并得到广泛应用的一种新型模拟进化优化算法。研究表明该算法具有并行性,鲁棒性等优良性质。它广泛应用于求解组合优化问题,所以本文着重介绍了这种智能计算方法,即蚁群算法,阐述了其工作原理和特点,同时对蚁群算法的前景进行了展望。 2 蚁群算法概述 1、起源 蚁群算法(ant colony optimization, ACO),又称蚂蚁算法,是一种用来在图中寻找优化路径的机率型技术。它由Marco Dorigo于1992年在他的博士论文中引入,其灵感来源于蚂蚁在寻找食物过程中发现路径的行为。 Deneubourg及其同事(Deneubourg et al.,1990; Goss et al.,1989)在可监控实验条件下研究了蚂蚁的觅食行为,实验结果显示这些蚂蚁可以通过使用一种称为信息素的化学物质来标记走过的路径,从而找出从蚁穴到食物源之间的最短路径。 在蚂蚁寻找食物的实验中发现,信息素的蒸发速度相对于蚁群收敛到最短路径所需的时间来说过于缓慢,因此在模型构建时,可以忽略信息素的蒸发。然而当考虑的对象是人工蚂蚁时,情况就不同了。实验结果显示,对于双桥模型和扩展双桥模型这些简单的连接图来说,同样不需要考虑信息素的蒸发。相反,在更复杂的连接图上,对于最小成本路径问题来说,信息素的蒸发可以提高算法找到好解的性能。 2、基于蚁群算法的机制原理 模拟蚂蚁群体觅食行为的蚁群算法是作为一种新的计算智能模式引入的,该算法基于如下假设: (1)蚂蚁之间通过信息素和环境进行通信。每只蚂蚁仅根据其周围的环境作出反应,也只对其周围的局部环境产生影响。 (2)蚂蚁对环境的反应由其内部模式决定。因为蚂蚁是基因生物,蚂蚁的行为实际上是其基因的自适应表现,即蚂蚁是反应型适应性主体。 (3)在个体水平上,每只蚂蚁仅根据环境作出独立选择;在群体水平上,单

特征选择算法综述20160702

特征选择方法综述 控制与决策2012.2 问题的提出 特征选择框架基于搜索策略划分特征选择方法基于评价准则划分特征选择方法结论 一、问题的提出特征选择是从一组特征中挑选出一些最有效的特征以降低特征空间维数的过程,是模式识别的关键问题之一。对于模式识别系统,一个好的学习样本是训练分类器的关键,样本中是否含有不相关或冗余信息直接影响着分类器的性能。因此研究有效的特征选择方法至关重要。 特征选择算法的目的在于选择全体特征的一个较少特征集合,用以对原始数据进行有效表达按照特征关系度量划分,可分为依赖基尼指数、欧氏距离、信息熵。 、特征选择框架 由于子集搜索是一个比较费时的步骤,一些学者基于相关和冗余分析,给出了下面一种特征选择框架,避免了子集搜索,可以高效快速地寻找最优子集。 从特征选择的基本框架看出,特征选择方法中有4 个基本步骤:候选特征子集的生成(搜索策略)、评价准则、停止准则和验证方法。目前对特征选择方法的研究主要集中于搜索策略和评价准则。因而,本文从搜索策略和评价准则两个角度对特征选择方法进行分类。 三、基于搜索策略划分特征选择方法 基本的搜索策略按照特征子集的形成过程,形成的特征选择方法如下:

图3 基于搜索策略划分特征选择方法 其中,全局搜索如分支定界法,存在问题: 1)很难确定优化特征子集的数目; 2)满足单调性的可分性判据难以设计; 3)处理高维多类问题时,算法的时间复杂度较高。 随机搜索法如模拟退火、遗传算法、禁忌搜索算法等,存在问题: 1)具有较高的不确定性,只有当总循环次数较大时,才可能找到较好的结果。 2)在随机搜索策略中,可能需对一些参数进行设置,参数选择的合适与否对最终结果的好坏起着很大的作用。 启发式搜索如SFS、SBS、SFFS、SFBS等,存在问题: 1)虽然效率高,但是它以牺牲全局最优为代价。 每种搜索策略都有各自的优缺点,在实际应用过程中,根据具体环境和准则函数来寻找一个最佳的平衡点。例如,特征数较少,可采用全局最优搜索策略;若不要求全局最优,但要求计算速度快,可采用启发式策略;若需要高性能的子集,而不介意计算时间,则可采用随机搜索策略。 四、基于评价准则划分特征选择方法

蚁群算法研究综述

蚁群算法综述 控制理论与控制工程09104046 吕坤一、蚁群算法的研究背景 蚂蚁是一种最古老的社会性昆虫,数以百万亿计的蚂蚁几乎占据了地球上每一片适于居住的土地,它们的个体结构和行为虽然很简单,但由这些个体所构成的蚁群却表现出高度结构化的社会组织,作为这种组织的结果表现出它们所构成的群体能完成远远超越其单只蚂蚁能力的复杂任务。就是他们这看似简单,其实有着高度协调、分工、合作的行为,打开了仿生优化领域的新局面。 从蚁群群体寻找最短路径觅食行为受到启发,根据模拟蚂蚁的觅食、任务分配和构造墓地等群体智能行为,意大利学者M.Dorigo等人1991年提出了一种模拟自然界蚁群行为的模拟进化算法——人工蚁群算法,简称蚁群算法(Ant Colony Algorithm,ACA)。 二、蚁群算法的研究发展现状 国内对蚁群算法的研究直到上世纪末才拉开序幕,目前国内学者对蚁群算法的研究主要是集中在算法的改进和应用上。吴庆洪和张纪会等通过向基本蚁群算法中引入变异机制,充分利用2-交换法简洁高效的特点,提出了具有变异特征的蚊群算法。吴斌和史忠植首先在蚊群算法的基础上提出了相遇算法,提高了蚂蚁一次周游的质量,然后将相遇算法与采用并行策略的分段算法相结合。提出一种基于蚁群算法的TSP问题分段求解算法。王颖和谢剑英通过自适应的改变算法的挥发度等系数,提出一种自适应的蚁群算法以克服陷于局部最小的缺点。覃刚力和杨家本根据人工蚂蚁所获得的解的情况,动态地调整路径上的信息素,提出了自适应调整信息素的蚁群算法。熊伟清和余舜杰等从改进蚂蚁路径的选择策略以及全局修正蚁群信息量入手,引入变异保持种群多样性,引入蚁群分工的思想,构成一种具有分工的自适应蚁群算法。张徐亮、张晋斌和庄昌文等将协同机制引入基本蚁群算法中,分别构成了一种基于协同学习机制的蚁群算法和一种基于协同学习机制的增强蚊群算法。 随着人们对蚁群算法研究的不断深入,近年来M.Dorigo等人提出了蚁群优化元启发式(Ant-Colony optimization Meta Heuristic,简称ACO-MA)这一求解复杂问题的通用框架。ACO-MH为蚁群算法的理论研究和算法设计提供了技术上的保障。在蚁群优化的收敛性方面,W.J.Gutjahr做了开创性的工作,提出了基于图的蚂蚁系统元启发式(Graph-Based Ant System Metaheuristic)这一通用的蚁群优化 的模型,该模型在一定的条件下能以任意接近l的概率收敛到最优解。T.StBtzle 和M.Dorigo对一类ACO算法的收敛性进行了证明,其结论可以直接用到两类实验上,证明是最成功的蚁群算法——MMAs和ACS。N.Meuleau和M.Dorigo研究了

特征选择综述

特征选择常用算法综述 一.什么是特征选择(Featureselection ) 特征选择也叫特征子集选择 ( FSS , Feature SubsetSelection ) 。是指从已有的M个特征(Feature)中选择N个特征使得系统的特定指标最优化。 需要区分特征选择与特征提取。特征提取 ( Feature extraction )是指利用已有的特征计算出一个抽象程度更高的特征集,也指计算得到某个特征的算法。 特征提取与特征选择都能降低特征集的维度。 评价函数 ( Objective Function ),用于评价一个特征子集的好坏的指标。这里用符号J ( Y )来表示评价函数,其中Y是一个特征集,J( Y )越大表示特征集Y 越好。 评价函数根据其实现原理又分为2类,所谓的Filter和Wrapper 。 Filter(筛选器):通过分析特征子集内部的信息来衡量特征子集的好坏,比如特征间相互依赖的程度等。Filter实质上属于一种无导师学习算法。 Wrapper(封装器):这类评价函数是一个分类器,采用特定特征子集对样本集进行分类,根据分类的结果来衡量该特征子集的好坏。Wrapper实质上是一种有导师学习算法。 二.为什么要进行特征选择? 获取某些特征所需的计算量可能很大,因此倾向于选择较小的特征集特征间的相关性,比如特征A完全依赖于特征B,如果我们已经将特征B选入特征集,那么特征A 是否还有必要选入特征集?我认为是不必的。特征集越大,分类器就越复杂,其后果就是推广能力(generalization capability)下降。选择较小的特征集会降低复杂度,可能会提高系统的推广能力。Less is More ! 三.特征选择算法分类 精确的解决特征子集选择问题是一个指数级的问题。常见特征选择算法可以归为下面3类: 第一类:指数算法 ( Exponential algorithms ) 这类算法对特征空间进行穷举搜索(当然也会采用剪枝等优化),搜索出来的特征集对于样本集是最优的。这类算法的时间复杂度是指数级的。

常见的特征选择或特征降维方法

URL:https://www.sodocs.net/doc/572418563.html,/14072.html 特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。 特征选择主要有两个功能: 1.减少特征数量、降维,使模型泛化能力更强,减少过拟合 2.增强对特征和特征值之间的理解 拿到数据集,一个特征选择方法,往往很难同时完成这两个目的。通常情况下,选择一种自己最熟悉或者最方便的特征选择方法(往往目的是降维,而忽略了对特征和数据理解的目的)。 在许多机器学习的书里,很难找到关于特征选择的内容,因为特征选择要解决的问题往往被视为机器学习的一种副作用,一般不会单独拿出来讨论。本文将介绍几种常用的特征选择方法,它们各自的优缺点和问题。 1 去掉取值变化小的特征 Removing features with low variance 这应该是最简单的特征选择方法了:假设某种特征的特征值只有0和1,并且在所有输入样本中,95%的实例的该特征取值都是1,那就可以认为这个特征作用不大。如果100%都是1,那这个特征就没意义了。当特征值都是离散型变量的时候这种方法才能用,如果是连续型变量,就需要将连续变量离散化之后才能用,而且实际当中,一般不太会有95%以上都取某个值的特征存在,所以这种方法虽然简单但是不太好用。可以把它作为特征选择的预处理,先去掉那些取值变化小的特征,然后再从接下来提到的特征选择方法中选择合适的进行进一步的特征选择。 2 单变量特征选择 Univariate feature selection

基于蚁群算法的TSP问题研究

南京航空航天大学金城学院毕业设计(论文)开题报告 题目基于蚁群算法的TSP问题研究 系部XXXX系 专业XXXX 学生姓名XXXX学号XXXX 指导教师XXXX职称讲师 毕设地点XXXX 年月日

填写要求 1.开题报告只需填写“文献综述”、“研究或解决的问题和拟采用的方法”两部分内容,其他信息由系统自动生成,不需要手工填写。 2.为了与网上任务书兼容及最终打印格式一致,开题报告采用固定格式,如有不适请调整内容以适应表格大小并保持整体美观,切勿轻易改变格式。 3.任务书须用A4纸,小4号字,黑色宋体,行距1.5倍。 4.使用此开题报告模板填写完毕,可直接粘接复制相应的内容到毕业设计网络系统。

1.结合毕业设计(论文)课题任务情况,根据所查阅的文献资料,撰写1500~2000字左右的文献综述: 1.1蚁群算法的发展和应用 在计算机自动控制领域中,控制和优化始终是两个重要问题。使用计算机进行控制和优化本质上都表现为对信息的某种处理。随着问题规模的日益庞大,特性上的非线性及不确定性等使得难以建立精确的“数学模型”。人们从生命科学和仿生学中受到启发,提出了许多智能优化方法,为解决复杂优化问题(NP-hard问题)提供了新途径。 蚁群算法(Ant Colony Algorithm,ACA)是Dorigo M等人于1991年提出的。 经观察发现,蚂蚁个体之间是通过一种称之为信息素的物质进行信息传递的。在运动过程中,蚂蚁能够在它所经过的路径上留下该种信息素,而且能够感知信息素的浓度,并以此指导自己的运动方向。蚁群的集体行为表现出一种信息正反馈现象:某一路径上走过的蚂蚁越多,则后来者选择该路径的概率就越大。蚂蚁个体之间就是通过这种信息的交流达到搜索食物的目的。它充分利用了生物蚁群通过个体间简单的信息传递,搜索从蚁巢至食物间最短路径的集体寻优特征,以及该过程与旅行商问题求解之间的相似性。同时,该算法还被用于求解二次指派问题以及多维背包问题等,显示了其适用于组合优化问题求解的优越特征。 蚁群算法应用于静态组合优化问题,其典型代表有旅行商问题(TSP)、二次分配问题(QAP)、车间调度问题、车辆路径问题等。在动态优化问题中的应用主要集中在通讯网络方面。这主要是由于网络优化问题的特殊性,如分布计算,随机动态性,以及异步的网络状态更新等。例如将蚁群算法应用于QOS组播路由问题上,就得到了优于模拟退火(SA)和遗传算法(GA)的效果。蚁群优化算法最初用于解决TSP 问题,经过多年的发展,已经陆续渗透到其他领域中,如图着色问题、大规模集成电路设计、通讯网络中的路由问题以及负载平衡问题、车辆调度问题等。蚁群算法在若干领域获得成功的应用,其中最成功的是在组合优化问题中的应用。 1.2蚁群算法求解TSP问题 (1)TSP问题的描述 TSP问题的简单形象描述是:给定n个城市,有一个旅行商从某一城市出发,访问各城市一次且仅有一次后再回到原出发城市,要求找出一条最短的巡回路径。 (2)TSP问题的理论意义 该问题是作为所有组合优化问题的范例而存在的。它已经成为并将继续成为测

有关特征选择内容

特征选择和集成学习是当前机器学习中的两大研究热点,其研究成果己被广泛地应用于提高单个学习器的泛化能力。 特征选择是指从原始特征集中选择使某种评估标准最优的特征子集。其目的是根据一些准则选出最小的特征子集,使得任务如分类、回归等达到和特征选择前近似甚至更好的效果。通过特征选择,一些和任务无关或者冗余的特征被删除,简化的数据集常常会得到更精确的模型,也更容易理解。 滤波式(filter)方法的特征评估标准直接由数据集求得,而无需学习算法进行反馈,其优点是运行效率高,因此非常适用于集成学习.假设用于集成的特征选择算法有k种,,抽取产生m 个子训练集,在每个训练集上利用其中一种特征选择算法选出满足条件的属性作为个体svm训练的输入空间,并训练得到m个svm个体,然后对其他的特征选择算法重复执行上述过程,最后将得到的k*m 个子svm的预测结果集成. 特征选择是从一组数量为D 的原始特征中选出数量为d(D>d)的一组最优特征采用遗传退火算法进行特征选择.随机生成长度为 D 的二进制串个体其中1 的个数为d 。连续产生这样的个体M 个M 为种群规模其大小影响着遗传算法的最终结果及其执行效率M。 特征选择的目的是找出分类能力最强的特征组合需要一个定量准则来度量特征组合的分类能力。度量特征选择算法优劣的判据很多各样本之所以能分开是因为它们位于特征空间的不同区域如果类间

距离越大类内各样本间的距离越小则分类效果越好。 各种新搜索算法和评估标准都应用到特征选择算法中。如粗糙集算法,神经网络剪枝法,支持向量机的评估标准,特征集的模糊嫡评价,马尔可夫算法等

入侵检测系统的数据含有大量的冗余与噪音特征,使得系统耗用的计算资源很大,导致系统训练时间长,实时性差,检测效果不好,引入特征选择算法能够去除高维数据中无用和冗余的信息,保留对分类效果起关键作用的信息,在不影响分类效果的同时减少数据量,降低了数据存储复杂度,减轻系统负荷,提高入侵检测系统的检测速度,增强入侵检测系统的健壮性。 入侵检测问题从机器学习的角度看实际上是一个分类问题,分类器的性能不仅与分类器设计算法有关,而且与选择的特征子集有关。一个高度相关的特征子集可有效改进分类器的性能,因而特征选择(属性约简)具有重要的理论意义和应用价值。 集成学习(Ensemble Learning)是通过将一组学习器以某种方式组合在一起可以显著提高学习系统的泛化能力(有监督的分类器集成和半监督的分类器集成)。 神经网络集成可以显著地提高神经网络系统的泛化能力,被视为

分支界定算法及其在特征选择中的应用研究

分支界定算法及其在特征选择中的应用研究作者:王思臣于潞刘水唐金元 来源:《现代电子技术》2008年第10期 摘要:分支界定算法是目前为止惟一既能保证全局最优,又能避免穷尽搜索的算法。他自上而下进行搜索,同时具有回溯功能,可使所有可能的特征组合都被考虑到。对分支界定算法进行研究,并对其做了一些改进;最后对改进前后的算法在特征选择领域进行比较,选择效率有了明显的提高。 关键词:分支界定算法;特征选择;特征集;最小决策树;局部预测 中图分类号:TP31 文献标识码:A 文章编号:1004-373X(2008)10-142- (Qingdao Branch,Naval Aeronautical Engineering Institute,Qingdao, Abstract:Branch&Bound Algorithm is the only method which can ensure best of all the vectors,and it can avoid endless searching.It searches from top to bottom and has the function that from bottom to top,so it can include all of the feature vectors.The Branch&Bound Algorithm is studied in the paper,and it is improved,the two algorithms are compared by the feature seclection,the Keywords:branch&bound algorithm;feature selection;feature vector;minimum solution 随着科学技术的发展,信息获取技术的不断提高和生存能力的提升,对于目标特征能够获得的数据量越来越大,维数越来越高,一方面可以使信息更充分,但在另一方面数据中的冗余和无关部分也会相应的增多。特征选择[1,2]就是为了筛选出那些对于分类来说最相关的特征,而去掉冗余和无关的特征。 分支界定算法[1,3,4]是一种行之有效的特征选择方法,由于合理地组织搜索过程,使其有可能避免计算某些特征组合,同时又能保证选择的特征子集是全局最优的。但是如果原始特征集的维数与要选择出来的特征子集的维数接近或者高很多,其效率就不够理想。基于此,本文对分支界定算法做了一定的改进,经过实验验证,与改进前相比其效率有明显的提高。 1 分支界定算法的基本原理

蚁群算法及其在序列比对中的应用研究综述

蚁群算法及其在序列比对中的应用研究综述摘要:蚁群算法是一种新颖的仿生进化算法。作为一种全局搜索的方法,蚂蚁算法具有正反馈性、并行性、分布性、自组织性等特点,自提出以来,便在求解复杂组合优化问题上显示出了强大的优势。序列比对是生物信息学的基础,通过在比对中获得大量的序列信息,可以推断基因的结构、功能和进化关系。本文首先详细阐述了蚁群算法的基本原理、各种改进技术及收敛性分析,然后对蚁群算法在双序列比对和多序列比对的应用研究进行了综述和评价,最后指出了下一步的研究方向。 关键词:蚁群算法;序列比对;信息素 Abstract: Ant colony algorithm (ACA) is a novel bionic evolutionary algorithm. As a global searching approach,ACA has some characteristic,such as positive feedback, distributing,paralleling, self-organizing, etc,and from it was introduced, it has been used to solve all kinds of complex optimization problem. Sequence alignment is the basement of Bioinformatics. With the wealth of sequence information obtained from sequence alignment, one can infers the structure, function and evolutionary relationship of genes. In this paper, the basic principles of ACA are introduced at length, and various improvements and convergence Analysis of ACA are also presented. Then the current study of double sequence alignment and multiple sequence alignment based on ant colony algorithm are reviewed and evaluated. Finally, some future research directions about ACA are proposed. Key words: Ant Colony Algorithm; Sequence Alignment; Pheromone 1 引言 蚁群算法(Ant Algorithm)是一种源于大自然中生物世界的新的仿生类算法,作为通用型随机优化方法,它吸收了昆虫王国中蚂蚁的行为特性,通过其内在的搜索机制,在一系列困难的组合优化问题求解中取得了成效。由于在模拟仿真中使用的是人工蚂蚁概念,因此有时亦被称为蚂蚁系统(Ant System)。据昆虫学家的观察和研究发现,生物世界中的蚂蚁有能力在没有任何可见提示下找出从其窝巢至食物源的最短路径,并能随环境的变化而变化,适应性地搜索新的路径,产生新的选择。作为昆虫的蚂蚁在寻找食物源时,能在其走过的路径上释放一种蚂蚁特有的分泌物——信息激素(Pheromone),使得一定范围内的其他蚂蚁能够察觉到并由此影响它们以后的行为。当一些路径上通过的蚂蚁越来越多时,其留下的信息激素轨迹(Trail)也越来越多,以致信息素强度增大(随时间的推移会逐渐减弱),后来蚂蚁选择该路径的概率也越高,从而更增加了该路径的信息素强

特征选择算法综述20160702

特征选择方法综述 控制与决策 2012.2 ●问题的提出 ●特征选择框架 ●基于搜索策略划分特征选择方法 ●基于评价准则划分特征选择方法 ●结论 一、问题的提出 特征选择是从一组特征中挑选出一些最有效的特征以降低特征空间维数的过程,是模式识别的关键问题之一。对于模式识别系统,一个好的学习样本是训练分类器的关键,样本中是否含有不相关或冗余信息直接影响着分类器的性能。因此研究有效的特征选择方法至关重要。 特征选择算法的目的在于选择全体特征的一个较少特征集合,用以对原始数据进行有效表达按照特征关系度量划分,可分为依赖基尼指数、欧氏距离、信息熵。 二、特征选择框架 由于子集搜索是一个比较费时的步骤,一些学者基于相关和冗余分析,给出了下面一种特征选择框架,避免了子集搜索,可以高效快速地寻找最优子集。 从特征选择的基本框架看出,特征选择方法中有4个基本步骤:候选特征子集的生成(搜索策略)、评价准则、停止准则和验证方法。目前对特征选择方法的研究主要集中于搜索策略和评价准则。因而,本文从搜索策略和评价准则两个角度对特征选择方法进行分类。

三、基于搜索策略划分特征选择方法 基本的搜索策略按照特征子集的形成过程,形成的特征选择方法如下: 图3基于搜索策略划分特征选择方法 其中,全局搜索如分支定界法,存在问题: 1)很难确定优化特征子集的数目; 2)满足单调性的可分性判据难以设计; 3)处理高维多类问题时,算法的时间复杂度较高。 随机搜索法如模拟退火、遗传算法、禁忌搜索算法等,存在问题: 1)具有较高的不确定性,只有当总循环次数较大时,才可能找到较好的结果。 2)在随机搜索策略中,可能需对一些参数进行设置,参数选择的合适与否对最终结果的好坏起着很大的作用。 启发式搜索如SFS、SBS、SFFS、SFBS等,存在问题: 1)虽然效率高,但是它以牺牲全局最优为代价。 每种搜索策略都有各自的优缺点,在实际应用过程中,根据具体环境和准则函数来寻找一个最佳的平衡点。例如,特征数较少,可采用全局最优搜索策略;若不要求全局最优,但要求计算速度快,可采用启发式策略;若需要高性能的子集,而不介意计算时间,则可采用随机搜索策略。 四、基于评价准则划分特征选择方法

特征选择算法综述及基于某weka的性能比较

数据挖掘中的特征选择算法综述及基于WEKA的性能比较 良龙 (大学信息科学与工程学院) 摘要:自进入21世纪以来,随着信息技术的飞速发展,产生了海量的具有潜在应用价值的数据,将这些数据转换成有用的信息和知识的需求也越来越迫切,因此数据挖掘引起了信息产业界和整个社会的极大关注。特征选择作为一种常见的降维方法,在数据挖掘中起到不可忽视的作用。本文首先介绍了数据挖掘处理对象的趋势,然后概述了特征选择算法,最后通过数据挖掘软件WEKA比较了分别基于Filter和Wrapper方法的特征选择算法的性能。 关键词:数据挖掘;特征选择;WEKA;Filter;Wrapper;性能比较 A survey of feature selection algorithm in Data Mining and the performance comparison based on WEKA Abstract: As the mass of data which have potential application and value have been created by the rapid development of information technology since the 21st century, the needs to transferring these data into useful information and knowledge are being more and more urgent, so the Data Mining caused the whole society and the information industry of great concern. Feature selection is critical to Data Mining for that it is a common method to reduce dimensions. The tendency of Data Mining’s

信息熵特征选择方案样本

基于互信息的特征选择 1. 模型 定义D1 病集S 由有关心脏病病种i X ( i =1, 2, …, n) 组成, 令患者的疾病信息熵1-2为: )(1log )()(1i n i i X P X P X H ∑=-= (1) 显然疾病信息熵具有Shannon 信息熵的性质, 反映了临床中具体病人的客观信息及实际医疗干预过程中所表现的信息在总体特征上的平均不确定性. 定义D2: 一个诊断病例库能够表示为关于病例特征的矩阵形式 n m ij x Casebase ?=][ (2) 其中, ij x —病例库中第j 个病例的第i 个属性值; m —病例特征数量; n —病例库规模; 定义D3: 一个信息系统( IS) 能够表示为 ,,,r r f R I U R V f ∈=<> (3) 其中, U 是对象的非空有限集合, R 是属性的非空有限集合, r r R V V ∈= 是属性值 的集合, V r 表示了属性任意r R ∈时的属性值范围, :r f U R V ?→ 是一个信息函数, 它指定U 中每一个对象 x 的属性值. 1 马笑潇, 黄席樾, 等. 基于信息熵的诊断过程认知信息流分析[J]. 重庆大学学报: 自然科学版, ,25(5):25-28. 2 王园, 吉国力, 魏磊. 信息熵在临床定量诊断分析中的研究及应用[J]. 厦门大学学报: 自然科学版, ,43(B08):353-356.

当R 中的属性集可进一步分解为条件属性集合C 和决策属性集合D, 且满足 ,R C D C D =? ?=?时, 信息系统(IS)称为决策系统(DS)3. a i 为某一条件属性, 则决策属性D 对某一条件属性a i 的依赖程度能够利用下式计算4-5: ( 4) 式中, R C 、 R D 分别表示条件属性集合C 和策属性集合D 在论域上的等价关 系.()D C R H R 表示R D 相对于R C 的条件熵.(,)i I a D 的值越大, 则条件属性a i 对决策属性D 的重要性越大.如果(,)0i I a D =, 则说明a i 对于D 不起作用, 能够删除.在基于属性信息增益的约简方法中, 计算案例库属性集的每个属性的信息增益, 并约定属性的信息增益大于某个阈值时就将该属性归入最优属性子集, 否则弃用属性. 1.3 基于互信息的特征选择6: 三种经典的基于互信息的特征选择算法, 分别为信息增益、 互信息和交叉熵, 以及于互信息最大化的特征选择算法7。 3 张文宇. 数据挖掘与粗糙集方法[M]. 西安电子科技大学出版社, : 49. 4 屈利, 苑津莎, 李丽. 基于事例推理的电力系统短期负荷预测[J]. 电力科学与工程, ,24(2):59-63. 5 程其云, 孙才新, 周湶, 等. 粗糙集信息熵与自适应神经网络模糊系统相结合的电力短期负荷预测模型及方法[J]. 电网技术, ,28 (17): 72-75. 6 Li Y F, Xie M, Goh T N. A study of mutual information based feature selection for case based reasoning in software cost estimation [J]. Expert Systems with Applications, , 36(3, Part 2): 5921-5931. 7唐亮,段建国,许洪波,梁玲.基于互信息最大化的特征选择算法及应用[J]. 计算机工程与应用, ,44(13):130-133

新颖的判别性特征选择方法

龙源期刊网 https://www.sodocs.net/doc/572418563.html, 新颖的判别性特征选择方法 作者:吴锦华等 来源:《计算机应用》2015年第10期 摘要:作为数据预处理的一种常用的手段,特征选择不仅能够提高分类器的分类性能,而且能增加对分类结果的解释性。针对基于稀疏学习的特征选择方法有时会忽略一些有用的判别信息而影响分类性能的问题,提出了一种新的判别性特征选择方法——DLASSO,用于选择出更具有判别力的特征。首先DLASSO模型包含一个L1范式正则化项,用于产生一个稀疏解;其次,为了诱导出更具有判别力的特征,模型中增加了一个新的判别性正则化项,用于保留同类样本以及不同类样本之间几何分布信息,用于诱导出更具有判别力的特征。在一系列Benchmark数据集上的实验结果表明,与已有方法相比较,DLASSO不仅能进一步提高分类器的分类精度,而且对参数也较为鲁棒。 关键词:特征选择;稀疏解; L1范式;判别正则化项;分类 中图分类号: TP181 文献标志码:A Abstract: As a kind of common method for data preprocessing, feature selection can not only improve the classification performance, but also increase the interpretability of the classification results. In sparselearningbased feature selection methods, some useful discriminative information is ignored, and it may affect the final classification performance. To address this problem, a new discriminative feature selection method called Discriminative Least Absolute Shrinkage and Selection Operator (DLASSO) was proposed to choose the most discriminative features. In detail, firstly,the proposed DLASSO method contained a L1norm regularization item, which was used to produce sparse solution. Secondly, in order to induce the most discriminative features, a new discriminative regularization term was introduced to embed the geometric distribution information of samples with the same class label and samples with different class labels. Finally, the comparison experimental results obtained from a series of Benchmark datasets show that, the proposed DLASSO method can not only improve the classification accuracy, but also be robust against parameters. Key words: feature selection; sparse solution; L1norm; discriminative regularization item; classification 0引言 在机器学习和模式识别领域,传统学习算法经常遇到“维数灾难””问题[1]。在此情形下,降低数据维度的方法不仅能够提高计算效率和改善分类的性能,而且能够增加对分类结果的解

相关主题