搜档网
当前位置:搜档网 › 基于信息熵的概率粗糙集在电路控制系统中的应用

基于信息熵的概率粗糙集在电路控制系统中的应用

基于信息熵的概率粗糙集在电路控制系统中的应用
基于信息熵的概率粗糙集在电路控制系统中的应用

Computer Knowledge and Technology 电脑知识与技术第6卷第20期(2010年7月)基于信息熵的概率粗糙集在电路控制系统中的应用

王华,柳炳祥

(景德镇陶瓷学院信息工程学院,江西景德镇333403)

摘要:概率粗糙集模型能充分利用近似边界区域提供的统计信息,并能对给定概念一个更完整的刻画,因而可以提取带有确定性因子的决策规则,笔者将改进的基于信息熵的属性约简算法应用于概率粗糙集模型中,并将此模型应用到电路控制系统中,得到了较好的效果。

关键词:概率粗糙集;信息熵;电路控制系统

中图分类号:TP301文献标识码:A 文章编号:1009-3044(2010)20-5577-02

Application of Probability Rough Set based on Information Entropy in the Circuit Control System

WANG Hua,LIU Bing-xiang

(Jingdezhen Ceramic Institute,Information Engineering,Jingdezhen 333403,China)

Abstract:The model of probability rough set can take full advantage of the border regions of similar statistical information,and given the concept of a more complete portrait,then we can extract with an uncertainty factor of the decision-making rules.The attribute reduction algorithm based on information entropy is applied to the probability of rough set model by the writer,this model will be applied to the cir -cuit control system and obtained good results.

Key words:probability rough set;information entropy;circuit control system

粗糙集理论是波兰数学家Z.Pawlak [1]于1982年提出的一种新的处理含糊性和不确定性知识的数学工具,已在模式识别、数据挖掘、机器学习等领域得到了广泛的应用。而后很多学者对粗糙集模型进行了推广,文献[2]给出了概率粗糙集模型。属性约简是粗糙集理论的一个重要研究课题,一般来说,知识库中的知识并不是同等重要的,存在着冗余,属性约简要求在保持分类能力不变的前提下,删除冗余属性,但这已被证明是一个NP-hard 问题,为了提高概率粗糙集分类效率,笔者将改进的基于信息熵的属性约简算法应用于概率粗糙集模型中,并将此模型应用到电路控制系统中,得到了较好的效果。

1基本理论

1.1信息系统

四元组S=(U,A,V,f)是一个信息系统,其中U:对象的非空有限集合;A:属性的非空有限集合,A 中的属性又可分为两个不相交的子集,即条件属性集C 和决策属性集D,A=C ∪D;

,V a 是属性a 的值域;f:U ×A->V 是一个信息函数,它为每个对象的每个属性赋予一个信息值,即。信息系统S=(U,A,V,f)简记为S=(U,A)。

1.2不可区分关系

令P 哿A,定义由属性集P 决定的不可区分关系IND(P)为:

IND(P)={(x,y)∈U ×U|V a ∈P,f(x,a)=f(y,a)}。

如果(x,y)∈IND(P),则称x 和y 是P 不可区分的。容易证明坌P 哿A,不可区分关系IND(P)是U 上的等价关系。符号U/IND(P)表示不可区分关系IND(P)在U 上导出的划分,即由IND(P)决定的等价类的集合。IND(P)的等价类称为S 中的P-基本集。

1.3近似集

设P 哿A,X 哿U 。X 关于P 的下近似定义为:

.X 关于P 的上近似定义为:.X

关于P 的边界定义为:.1.4知识约简

P 和Q 为U 中的等价关系,则集合

叫做P 的Q 正域。当POS IND(P)(IND(Q))=POS IND(P-R)(IND(Q))时。称R ∈P 为P 中Q 可省略的,否则为P 中Q 不可省略的。当P 中每个R 都为Q 不可省略时,称P 为Q 独立的。当S 为P 的Q 独立子族,且POS S (Q)=

POS P (Q)时,则族S 哿P 称为P 的Q 约简。

1.5条件熵

设U 为一个论域,P,Q 奂A 为U 上的两个等价关系簇,U/P={X 1,X 2,X 3,…,X n },U/Q={Y 1,Y 2,Y 3,…,Y n },则P 的熵定义为:

,其中p(X i )=card(X i )/card(U)。而P 相对Q 的条件熵定义为:收稿日期:2010-04-19

作者简介:王华(1979-),女,湖北宜昌人,硕士,景德镇陶瓷学院(助教),研究方向为数据挖掘。

ISSN 1009-3044Computer Knowledge and Technology

电脑知识与技术Vol.6,No.20,July 2010,pp.5577-5578,5592E-mail:eduf@https://www.sodocs.net/doc/0716844092.html, https://www.sodocs.net/doc/0716844092.html, Tel:+86-551-56909635690964

,其中。

1.6概率粗糙集

设U是有限对象构成的论域,R是U上的等价关系,其构成的等价类为U/R={X1,X2,X3,…,X n},仍记x所在的等价类为[X],令P 为U子集上定义的概率测度,三元组A p=(U,R,P)称为概率近似空间。U中的每个子集称为概念,它代表了具有一定概率的随机事件。P(X|Y)表示事件Y发生下X出现的条件概率,根据这些条件概率,可以定义概率近似空间中的Y概率上近似和概率下近似分别为:这样的概率近似正域、概率边界和概率负域分别为:

由此可见,当一个对象属于POSA p(Y)或NEGA p(Y)时,可以从概率的意义上肯定这个对象满足概率Y的程度,但不能肯定边界中研究对象是否匹配概念Y。

2实例

本文以一个电路控制系统为例,研究了基于信息熵的概率粗糙集在电

路控制系统中的应用。

针对电路控制系统工作状态表(1),进行数据预处理,得到电路控制系

统工作状态表(2)。

条件属性集合C=(c1,c2,c3,c4),其中各属性及属性值分别为:

C1表示输入电流,其中:0~2.00类别为1、2~4类别为2、4~6类别为3;

C2表示温度,其中:类别1为低、类别2为中、类别3为高;

C3表示电压,其中:0~59类别为1、60~69类别为2、70~89类别为3;

C4表示噪声,其中:0~0.005类别为1、0.01~0.015类别为2、0.016~0.02类别为3;

决策属性集合D=(d),其中属性及属性值分别为:

d表示输出电流大小,其中:类别1为低、类别2为中、类别3为高。

将表1中数据离散化为表2。

3方法

本文提出的分类算法是在概率粗糙集的基础上以信息熵作为衡量属性重要度的标准,在此基础上进行属性约简,最终输出相应的规则。

输入:K=(U,P,C∪D,V,f),置信度阀值t

输出:规则及相应置信度

Step1:计算k的信息熵H(DC);

Step2:求属性集C的核属性CORE(C),即CORE(C)={a∈c|H(DC-{a})-H(DC)>0};

Step3:初始化L=CORE(C),如果L=Φ,转step5

Step4:计算属性核的粗糙熵H(DL);如果H(DC)=H(DL),那么L为最小属性约简,且转step7

Step5:对于每一个属性c∈C-L,计算属性重要性Sig(c,L,D>0),选择属性重要性最大的属性c,使其满足H={a|max{Sig(c,L,D)}},如果|H=1|,那么选择c∈H,否则选择属性c,使其满足|U/{c}|=min{|U/{c'}||a'∈H};L=L∪{a}如果E(D L)≠E(D C),那么重复Step5;

Step6:删除属性,创建C的一个相对约简L;初始化L=L-CORE(C),t=|L|;

For i=1to t Do

{在L中删除第i个属性c i,L=L-{c i};

计算H(D L∪CORE(C));

如果H(D L∪CORE(C))≠H(D C),那么L=L∪{c i};

L=L∪CORE(C)为相对最小属性约简

Step7:对D中每个属性循环执行以下操作:计算U|ind(d)={D1,D2,…D t},U|ind(L)={C1,C2,…C i}。若置信度P(D j/C i)>t,则输出规则.

经过属性约简,得到相对最小属性集为{C1,C3,C4}.我们在进行规则提取时,基本粗糙集模型没有获得利用近似边界区域所提供的统计信息,然而概率粗糙集模型能充分利用近似边界区域的统计信息,并能给概念X一个更完整的刻画,如以绝对边界情形(α=β=0.5)为例,可以提取带有置信度c的决策规则如下:

规则1:若P(X|X i)>0.5,则:

规则2:若P(X|X i)<0.5,则:

规则3:若P(X|X i)=0.5,则:(下转第5592页)

表1电路控制系统工作状态表

表2电路控制系统工作状态表

(上接第5578页)

其中规则中的确定性因子定义为c=max{P(X|X i),1-P(X|X i)}。

用概率粗糙集方法来处理可获得如下决策规则:

4结论

显然,能用基本粗糙集模型方法得到的决策规则一定能够使用概率粗糙集方法得到同样的决策规则,反之则不然。由此可见,通过概率粗糙集模型对电路控制系统进行分类,可以得到更好的效果,输出分类效率更高的决策规则,是基本粗糙集模型一个很好的补充和推广。

参考文献:

[1]Pawlak Z.Rough sets[J].International Journal of Information and Computer Science,1982,(11):341-356.

[2]张文修,吴伟志,梁吉业,等.粗糙集理论与方法[M].科学出版社,2001.

[3]王国胤.Rough集理论与知识获取[M].西安:西安交通大学出版社,2001.

[4]苗夺谦,王珏.Rough Set理论中知识粗糙性与信息熵关系的讨论[J].模式识别与人工智能,1998,11(1):34-40.

由于差分序列中距离值长度在总体上呈递减趋势,可以通过如下算法实现对其分段:从差分序列中选取出最大的距离值长度K1,找出此距离值长度最后一次出现的位置,以此位置作为差分序列分段的分段处,将差分序列分为AB两段,A段中的距离值长度一律取K1位。对于B段差分序列,选出其最大的距离值长度K2,以同样的方式继续分段,直至分段处位置接近差分序列尾部为止(以分段处落在最后一条差分向量中为标志)。

差分序列每段之间的距离值长度是不同的,这需要一个计数值来表明何时改变距离值长度。假设某段距离值序列中距离值长度都为K,则在此段距离值序列之前增加一个K位的数值,以表示此段中所有距离值的个数。解压过程中,当距离值个数递减为0时,表明距离值长度将发生改变。

4解压电路

解压电路是由一个有限状态机FSM,存放标准向量的ROM,距离值计数器,距离值个数

计数器和若干位的寄存器组成。如图1所示。

解压步骤如下:先把标准差分算法中不作任何压缩的V—C测试向量,直接传送到被测

电路(CUT)上进行测试。之后,每隔m个时钟,从ROM中读取一列共m位数据到m位的寄

存器中(这里m取8位)。ROM中的标准向量数据读至最后一列后,再从第一列开始读取,重

复使用。从ATE上读取距离值到可变长度的距离值计数器中,读取相应数据于距离值个数计

数器中。每时钟寄存器移出一位数据,距离值计数器递减1,当计数器递减为0时,发出flip信号,与寄存器移出的数据进行”异或”操作之后,送入被测电路中。同时距离值个数计数器减1,若距离值个数计数器不为0,装载下一个距离值数据于距离值计数器中;若其值为0,则返回flag信号,距离值长度发生变化,移入新的距离值和距离值个数到相应计数器中,继续递减。

5结束语

本文提出向量差分压缩方法,压缩率较高,差分所需寄存器很少,并且与ATE通讯握手协议比较简单,与FDR码编码方法相比具有更高的压缩率和更好的综合性能。

参考文献:

[1]梁华国,方祥圣,蒋翠云,等.一种选择折叠计数状态转移的BIST方案[J].计算机研究与发展,2006,(2):343-349.

[2]Tehranipour M.,Nourani M.and Chakrabarty K.Nine-Coded Compression Technique with Application to Reduced Pin-Count Testing

and Flexible On-Chip Decompression.Proc.IEEE/ACM Design,Automation and Test in Europe(DATE)Conference,pp.1284-1289, 2004.

[3]朱里,汪国有,张磊,等.基于小波变换的低通系数差分的图像压缩算法[J].华中科技大学学报,2006(8):1-3.

[4]陈东方,吴国红.一种基于系数差分的SPECK图像压缩算法[J].武汉科技大学学报,2007(6):6-10.

图1解压电路结构图

粗糙集理论及其应用综述

控制理论与应用 CONTROL THEORY & APPLICATIONS 1999年 第16卷 第2期 Vol.16 No.2 1999 粗糙集理论及其应用综述* 韩祯祥 张琦 文福拴 摘要:粗糙集理论是一种较新的软计算方法,可以有效地分析和处理不完备信息.该理论近年日益受到国际学术届的重视,已经在模式识别、机器学习、决策支持、过程控制、预测建模等许多科学与工程领域得到成功的应用.本文介绍了粗糙集理论的基本概念,对其在各领域的应用情况进行了综述. 关键词:粗糙集;不确定性;数据分析;软计算;粗糙控制 A Survey on Rough Set Theory and Its Application Han Zhenxiang, Zhang Qi and Wen Fushuan (Department of Electrical Engineering, Zhejiang University.Hangzhou,310 027,P.R.China) Abstract: Rough set theory is a relatively new soft comput ingtool to deal with vagueness and uncertainty.It has received much attention of the researchers around the world.Rough set theory has been applied to many area s successfully including pattern recognition,machine learning,decision support, process control and predictive modeling.This paper introduces the basic concepts of rough set.A survey on its applicatoins is also given. Key words: rough set; uncertainty; data analysis; soft computing; rough control 1 引言(Introduction) 粗糙集(Rougn Set,RS)理论是一种刻划不完整性和不确定性的数学工具,能有效地分析和处理不精确、不一致、不完整等各种不完备信息,并从中发现隐含的知识,揭示潜在的规律[1].RS理论是由波兰学者Pawlak Z在1982年[2]提出的.1991年Pawlak Z出版了专著[3],系统全面地阐述了RS理论,奠定了严密的数学基础.该书与1992年出版的RS理论应用专集[4]较好地总结了这一时期RS理论与实践的研究成果,促进了它的进一步发展,现已成为学习和应用RS理论的重要文献.从1992年至今,每年都召开以RS 为主题的国际会议,推动了RS理论的拓展和应用.国际上成立了粗糙集学术研究会,参加的成员来自波兰、美国、加拿大、日本、挪威、俄罗斯、乌克兰和印度等国家.目前RS理论已成为人工智能领域中一个较新的学术热点,引起了越来越多的科研人员的关注. 2 粗糙集理论的基本概念(Basic concepts of rough set theory) 2.1 知识与不可分辨关系(Knowledge and indiscern ibility relation) 在RS理论中,“知识”被认为一种将现实或抽象的对象进行分类的能力[3].假定

信息熵理论

信息熵理论 在通信系统中,信息从发送到接收的传输过程是一个有干扰的信息复制过程。 对每一个具体的应用而言,传输的信息是确定的,有明确的应用目的。 对一个通信系统而言主,不同的用户要传送的具体的信息内容是不同的,则如何从这些繁杂的具体信息中提炼出它们的共同特征,并可进行量化估计是shannon 信息论研究的基础。 所谓量化估计就是用提炼的共同特征估计与某些具体内容所对应的需要传输的信息量大小。 信息量定义的另一个重要特征是它能保证信息量值的大小与具体的信息内容无关。 1.定义信息熵: 设X 是一个离散的随机变量,其定义空间为一个字符集E 。 ()()E x x X P x p ∈==,,表示相应的概率分布函数,则 ()()()()x p x p X H x log ∑-=称为离散随机变量的熵。 有时记()()()()(){}X p E x p x p p H p x log log -=-=∑ {}p E 表示以概率分布()x p 对某随机变量或随机函数求概率平均。 2.定义联合熵: 设X ﹑Y 是丙个离散的随机变量,(X,Y )的联合概率分布函数为()()y Y x X P y x p ===,,,则 ()()()y x p y x P Y X H x y ,log ,,∑∑-= 称为离散随机变量X 与Y 的联合熵。 有时记为: ()()()(){}Y X p E y x p y x p Y X H p x y ,log ,log ,,-=-=∑∑ 3.定义条件熵: 如果()(),,~,y x p Y X 则条件熵()X Y H /定义为 ()()() ∑=-=x x X Y H x p X Y H // ()()()∑∑- =x y x y p x y p x p /log / ()()∑∑-=x y x y p y x p /log , (){}X Y p E /log -= 条件熵等于零的条件为()1==Y X p 事实上,对任意的y x ,都有()()0/log /=x y p x y p ,从而得()()1/0/==x y p x y p 或,又因为X 与Y 是取值空间完全相同的随机变量,所以有()1/=X Y p

粗糙集理论

粗糙集理论与应用研究综述 王国胤1Yiyu Yao2 于洪1,2 (1重庆邮电大学计算机科学与技术研究所重庆400065) (2Department of Computer Science, University of Regina, Regina, Canada S4S 0A2) {wanggy, yuhong}@https://www.sodocs.net/doc/0716844092.html,, yyao@cs.uregina.ca 摘要本文在阐释粗糙集理论基本体系结构的基础上,从多个角度探讨粗糙集模型的研究思路,分析粗糙集理论与模糊集、证据理论、粒计算、形式概念分析、知识空间等其他理论之间的联系,介绍国内外关于粗糙集理论研究的主要方向和发展状况,讨论当前粗糙集理论研究的热点研究领域,以及将来需要重点研究的主要问题。 关键词粗糙集,模糊集,粒计算,形式概念分析,知识空间,智能信息处理 A Survey on Rough Set Theory and Its Application Wang Guo-Yin1Yao Yi-Yu2 Yu Hong1,2 1 Institute of Computer Science and Technology, Chongqing University of Posts and Telecommunications, Chongqing, 400065 2 Department of Computer Science, University of Regina, Regina, Saskatchewan, Canada, S4S 0A2 Abstract This paper introduces the basic ideas and framework of rough set theory and the different views of knowledge representation in rough set theory, and then discusses the relations between the rough set theory and the other theories, such as fuzzy set, evidence theory, granular computing, formal concept analyzing, knowledge space, etc. Furthermore, the paper reviews the recent studies for this theory and a survey on its applications is also given. The future development trend of rough set theory is also discussed. Keywords rough set, fuzzy set, granular computing, formal concept analyzing, knowledge space, intelligent information processing 1 引言 智能信息处理是当前信息科学理论和应用研究中的一个热点领域。由于计算机科学与技术的发展,特别是计算机网络的发展,每日每时为人们提供了大量的信息,信息量的不断增长,对信息分析工具的要求也越来越高,人们希望自动地从数据中获取其潜在的知识。特别是近20年间,知识发现(规则提取、数据挖掘、机器学习)受到人工智能学界的广泛重视,知识发现的各种不同方法应运而生。 粗糙集(Rough Set,有时也称Rough集、粗集)理论是Pawlak教授于1982年提出的一种能够定量分析处理不精确、不一致、不完整信息与知识的数学工具[1]。粗糙集理论最初的原型来源于比较简单的信息模型,它的基本思想是通过关系数据库分类归纳形成概念和规则,通过等价关系的分类以及分类对于目标的近似实现知识发现。 由于粗糙集理论思想新颖、方法独特,粗糙集理论已成为一种重要的智能信息处理技术[2-4],该理论已经在机器学习与知识发现、数据挖掘、决策支持与分析等方面得到广泛应用。目前,有三个有关粗糙集的系列国际会议,即:RSCTC、RSFDGrC和RSKT。中国学者在这方面也取得了很大的成果,从2001年开始每年召开中国粗糙集与软计算学术会议;RSFDGRC2003、IEEE GrC2005、RSKT2006、IFKT2008、RSKT2008、IEEE GrC2008等一系列国际学术会议在中国召开。 粗糙集理论与应用的核心基础是从近似空间导出的一对近似算子,即上近似算子和下近似算子(又称上、下近似集)。经典Pawlak模型中的不分明关系是一种等价关系,要求很高,限制了粗糙集模型的应用。因此,如何推广定义近似算子成为了粗糙集理论研究的一个重点。 目前,常见的关于推广粗糙集理论的研究方法有两种,即:构造化方法和公理化方法。构造化方法是以论域上的二元关系、划分、覆盖、邻域系统、布尔子代数等作为基本要素,进而定义粗糙近似算子,从而导出粗糙集代数系统。公理化方法的基本要素是一对满足某些公理的一元集合算子,近似算子的某些公理能保证有一些特殊类型的二元关系的存在;反过来, 由二元关系通过构造性方法导出的近似算子一定满足某些公理。 事实上,有两种形式来描述粗糙集,一个是从集

粗糙集理论及其应用与发展研究

Computer Knowledge And Technology电脑知识与技术2008年第4卷第1期(总第28期) 粗糙集理论及其应用与发展研究 韦良 (同济大学电子与信息工程学院,上海201804) 摘要:粗糙集理论是一种研究不精确、不确定性、处理不完备知识的数学工具,目前被广泛应用于人工智能、模式识别、机器学习、决策支持和数据挖掘等领域。该文通过介绍粗糙集理论及特点,叙述了粗糙集理论在各领域的应用发展情况,并且展望了其未来发展趋势。 关键词:粗糙集;属性约简;粗糙集应用;数据挖掘 中图分类号:TP18文献标识码:A文章编号:1009-3044(2008)28-0172-03 Rough Set Theory and Its Application Research WEI Liang (Electronics and Information School,Tongji University,Shanghai201804,China) Abstract:Rough set theory is a math theory which processes non-accurate,uncertain and incomplete knowledge.Currently,it has already been applied successfully in the area of Artificial Intelligence,Pattern Recognition,Machine Learning,Decision Analyzing and Data Mining etc.This paper introduces the rough set theory and its characteristics,reviews the development of this theory in different fields,and suggests evolutional trend in the coming future. Key words:rough set;attribute reduction;rough set application;data mining 1引言 波兰数学家Pawlak于1982年提出的粗糙集理论是一种新的处理模糊和不确定性知识的数学工具[1]。其主要思想就是在保持分类能力不变的前提下,通过知识约简,导出问题的决策或分类规则。粗糙集理论能有效地分析和处理不精确、不一致和不完整等各种不完备信息,并从中发现隐含的知识,揭示潜在的规律。以粗糙集理论为基本框架的知识发现过程的研究,越来越引起人们的关注,特别是将粗糙集理论与机器学习、模式识别、数据库理论等相结合,并融合其它有效的数学工具与方法的研究,显示出基于粗糙集理论的多种软计算方法相结合算法在知识发现和优化过程中的强大的优越性,为知识发现的理论基础提供了一定的依据。目前粗糙集理论已成为人工智能领域中一个较新的学术热点,引起了越来越多科研人员的关注。 2粗糙集理论的基本概念 设U是非空有限论域,R是U上的二元等价关系,R称为不可分辨关系,序对A=(U,R)称为近似空间。坌(x,y)∈U×U,若(x,y)∈R,则称对象x与y在近似空间A中是不可分辨的。U/R是U上由R生成的等价类全体,它构成了U的一个划分。可以证明,U上划分可以与U上的二元等价关系之间建立一一对应。U/R中的集合称为基本集或原子集。若将U中的集合称为概念或表示知识,则A= (U,R)称为知识库,原子集表示基本概念或知识模块。任意有限的基本集的并和空集均称为可定义集,否则称为不可定义的。可定义集也称为精确集,它可以在知识库中被精确地定义或描述,可表示已知的知识。可以验证所有可定义集全体可构成U上的一个拓扑。 令知识库K=(U,R),集合X哿U,R是一个等价关系: 分别称RX为X的R下近似(Lower Approximation)和RX为X的R上近似(Upper Approximation)。称集合BN R(X)=RX-RX为X 的R边界域;POS R(X)RX为X的R正域;NEG R(X)=U-RX为X的R负域。 下近似RX包含了所有使用知识R可确切分类到概念X的元素。上近似 RX则包含了所有那些可能是属于概念X的元素。概念的边界区域BN R(X) 由不能肯定分类到这个概念X或其补集X中的所有元素组成。关系如图1 所示。 刻画粗糙集的方法有以下两种:一种是用表示近似精度的数值表示粗 糙集的数字特征;数字特征表示粗糙集边界域的相对大小,但没有说明边 界域的结构。另一种是用粗糙集的拓扑分类表示粗糙集的拓扑特征。拓扑 特征给出边界域的结构信息,但没有给出边界域大小的信息。 由等价关系R定义的集合X的近似精度如下: 收稿日期:2008-07-03 作者简介:韦良(1982-),男(朝鲜族),黑龙江牡丹江人,在读硕士研究生,研究方向:数据挖掘,人工智能,粗糙集应用。 图1概念的上近似、下近似和区域表示 ISSN1009-3044 Computer Knowledge And Technology电脑知识与技术 Vol.4,No.1,October2008,pp.172-174 E-mail:eduf@https://www.sodocs.net/doc/0716844092.html, https://www.sodocs.net/doc/0716844092.html, Tel:+86-551-56909635690964 172 本栏目责任编辑:唐一东人工智能及识别技术

信息熵的应用

分类号: O236单位代码:106 密级:一般学号: 本科毕业论文(设计) 题目:信息熵在球员选拔中的应用专业: 姓名: 指导教师: 职称: 答辩日期:

信息熵在球员选拔中的应用 摘要:.本课题通过研究信息熵的定义和性质,运用p c -分析法,通过统计一场球赛中各个球员的各项技术指标并该场球赛中各个队员的信息熵,自信息等值,得到球员选拔过程中对球员的评判方法.并以此法选出优秀的球员,根据信息熵的性质指出每个球员的不足之处,为今后的训练指明了方向. 关键字:信息熵;P-C分析法;球员选拔 Information entropy application in selecting players Abstract: Shannon information entropy presented expressions in 1948, which pioneered information theory. Now more and more international competitions, how to select best players on behalf of the state competition become critical .This issue through the definition and nature of information entropy, use of p c -law to come the assessment of each player, and select a good player, and point out the inadequacties of each player based on information entropy, that should be strengthened in future training exercises. Key Words: Information Entropy; P-C Analysis; Selecting Players

【文献综述】决策粗糙集均值模型

文献综述 数学与应用数学 决策粗糙集均值模型 由于社会已经进入了网络信息时代,信息量不断增长(信息爆炸),并且由于人类的参与,使数据与信息系统中的不确定性更加显著(复杂系统)。面对大量的、杂乱无章的数据,人们希望能从中挖掘出潜在的、有用的信息,这给人类的智能信息处理能力提出了前所未有的挑战。由此产生了人工智能的新领域——知识发现(规则提取、数据挖掘和机器学习)。 波兰数学家Pawlak于1982年发表了论文“Rough Sets”[9]提出了一种能够定量分析处理不精确、不一致、不完整信息与知识的理论——粗糙集理论。1992年,第一届关于粗糙集理论国际学术会议在波兰召开。粗糙集的主要特点是不需要预先给定所需处理的数据集合之外的任何信息,而是直接从给定问题的分类知识出发,提供潜在知识和决策支持。国内外学者对该理论进行了广泛而深入的研究,提出了许多粗糙集模型,并且已经成功应用于很多领域和开发了大量的实用系统[7]。目前,对粗糙集理论的研究集中在它的数学性质、粗糙集拓展、其它不确定方法的关系和互补、有效算法和粒度计算等方面。目前,有3个有关粗糙集的系列国际会议,即RSCTC、RSFDGrC和RSKT。中国学者在这方面虽然起步晚,但发展较快,从2001年开始每年召开中国粗糙集与软计算学术会议;2003年中国人工智能学会粗糙集与软计算专业委员会成立;一系列学术会议也有在中国召开,特别值得一提的是2010年第二届国际粗糙集理论研讨会在我校(浙江海洋学院)召开。中国第四届粗糙集与软计算会议也于2004年10月24日在我校召开,大大增加了我校在国内外的知名度。 在经典粗糙集理论的研究中,Pawlak的代数粗糙集模型是研究的主要对象。粗糙集理论是建立在分类机制的基础上的。它将研究对象组成的集合称为论域,将分类理解为在论域上的等价关系,而等价关系构成了对该论域的划分。粗糙集理论将知识理解为对数据的划分,每一被划分的集合称为概念或范畴。一个等价关系对应一个划分,把论域分解成子集族,作为描述论域中任意概念的基本信息粒子。这产生了一个颗粒集合,其中一个颗粒看作一丛点(对象),因其不可区分性、相似性、接近的功能而被看做一致[24]。 对于一个等价关系(划分),某些子集不能精确地由一个等价类或者几个等价类来表

信息熵

信息熵在遥感影像中的应用 所谓信息熵,是一个数学上颇为抽象的概念,我们不妨把信息熵理解成某种特定信息的出现概率。信源各个离散消息的自信息量得数学期望(即概率加权的统计平均值)为信源的平均信息量,一般称为信息源,也叫信源熵或香农熵,有时称为无条件熵或熵函数,简称熵。 一般而言,当一种信息出现概率更高的时候,表明它被传播得更广泛,或者说,被引用的程度更高。我们可以认为,从信息传播的角度来看,信息熵可以表示信息的价值。这样子我们就有一个衡量信息价值高低的标准,可以做出关于知识流通问题的更多推论。 利用信息论中的熵模型,计算信息量是一种经典的方法,广泛应用于土地管理,城市扩张以及其他领域。熵值可以定量的反应信息的分散程度,将其应用于遥感图像的解译中可以定量的描述影像包含的信息量,从而为基于影像的研究提供科学的依据。利用信息熵方法对遥感影像的光谱特征进行离散化,根据信息熵的准则函数,寻找断点,对属性进行区间分割,以提高数据处理效率。 遥感影像熵值计算大致流程为:遥感影像数据经过图像预处理之后,进行一系列图像配准、校正,图像增强,去除噪声、条带后,进行图像的分类,然后根据研究区域进行数据的提取,结合一些辅助数据对图像进行监督分类后生成新的图像,将新的图像与研究区边界图和方格图生成的熵单元图进行进一步的融合便可得到熵分值图。 1.获得研究区遥感影像 以研究区南京市的2009 年6 月的中巴资源二号卫星分辨率20 米得影像为例,影像是有三幅拼接完成。通过ArGIS9.2 中的选择工具从全国的行政区域图中提取边界矢量图,再通过掩膜工具获得研究区的影像。分辨率的为90 米得DEM 图有两副影像拼接而得,操作的步骤与获取影像一致,为开展目视解译工作提供参考。然后依照相关学者的相关研究以及城市建设中的一些法律法规,参照分类标准,开展影像解译工作,对于中巴资源二号影像开展监督分类,以及开展目视解译工作。 2.二值图像的建立 将两种解译所得的图像按照一定的标准转化为城镇用地和非城镇用地两种,进一步计算二值图像的熵值。 3.熵值单元图 根据一些学者对城市边缘带的研究,其划分的熵值单元为 1 km ×1 km,针对样 区的具体情况,采用500 m ×500 m 的熵值单元。在ERDAS 软件和

信息熵理论的应用研究

信息熵理论的应用研究 [摘要] 广告活动是信息的活动,信息熵是信息活动的度量标准。本文利用信息熵理论对广告活动中的信息处理、广告传播、广告效果测定和广告受众进行了论证,指出了广告信息活动的规律。 [关键词] 信息熵;负熵;广告活动;广告受众 广告是一种非人际的信息传播,是信息交流的工具。广告系统实质上是信息系统,它具备了信息传播的五要素:谁——通过什么媒介——对谁——说了什么——取得了什么效果。广告的信息传播包括:广告发布者(包括广告主、广告制作者和传播者,即信息源)、广告信息内容、广告媒介、广告受众、广告效果等要素。信息熵理论是描述信息系统发展的基本理论,利用信息熵从信息的角度分析广告行为、预判广告活动的发展趋势,是研究广告活动的一种新方法。 一、熵、信息熵与广告活动的理论分析 熵是一个重要的物理概念,热力学中的熵通常被用于表征一个物理系统的无序程度。随着科学综合化的发展,熵又远远超出物理学范围。1948年,香农(shannon)第一次将熵这一概念引入到信息论中,从此,熵这一概念被广泛用于信息的度量,在自然科学和社会科学众多领域中得到广泛应用,并成为一些新学科的理论基础,由狭义熵发展为广义熵。正如爱因斯坦的评价那样:“熵理论对于整个科学来说是第一法则”。熵表示的是系统固有的、规律性的本质。在没有外界作用下,一个系统的熵越增,不可用能就越大,动力越小;换言之,一个系统的熵不相同时,对于相等的进程,它们的利用价值可以大不相同。一个孤立系统的熵永不减少,这叫做熵增原理。根据这一原理,以熵变为判据,不仅可以判断过程进行的方向,而且还能给出孤立系统达到平衡的条件。熵增原理揭示了一切自发过程都是不可逆的这一共同本质。为了打破平衡,必须与外部系统交换熵,从外部系统得到的熵称为负熵,目的是使本系统的熵值减少,更具有活力。

粗糙集理论与其它不确定理论的比较分析

文章编号:1672-6197(2004)04-0007-05 粗糙集理论与其它不确定理论的比较分析 程钧谟1, 綦振法1,徐福缘2,段福兴1 (1.山东理工大学管理学院,山东淄博255049;2.上海理工大学管理学院,上海200093) 摘 要:粗糙集理论作为一门新兴的不确定理论正越来越受到人们的关注.在介绍粗糙集理论基本内容的基础上,对粗糙集理论与模糊理论、随机理论、灰色理论等其它不确定理论的差异性进行了分析,同时讨论了它们之间的互补性问题并构建了相应的互补模型,最后,指出了粗糙集理论对于进一步丰富和完善不确定理论体系的重要性. 关键词:粗糙集理论;模糊理论;随机理论;灰色理论;差异性 中图分类号:O159 文献标识码:A R elative analysis on rough set theory and other uncertain theories CHEN G J un 2mo 1,Q I Zhen 2fa 1,XU Fu 2yuan 2,DUAN Fu 2xing 1 (1.School of Management ,Shandong University of Technology ,Z ibo 255049,China 2.School of Management ,Shanghai University for Science and Technology ,Shanghai 200093,China ) Abstract :As a new uncertainty theory ,the rough set theory is engaging more and more people ’s attention.The basic concepts of rough set are introduced.On the base of this ,the difference be 2tween the rough theory and other uncertain theories such as fuzzy theory ,random theory and grey theory is analyzed.At the same time ,the complementary problems are discussed and the comple 2mentary models are established.At last ,the importance of the rough theory on making the indefi 2nite theory perfect is pointed out.K ey w ords :rough theory ;fuzzy theory ;random theory ;grey theory ;difference 管理活动是由一系列决策组成的.在市场竞争非常激烈的今天,无论企业或个人都经常面临复杂的决策问题,不仅需要快速做出决策,而且需要分析与解决决策问题中多重不确定性所带来的困难.一个管理者的决策有效与否,很大程度上取决于他是否拥有适应这种复杂化的决策思想和方法.目前,不确定性决策问题已普遍存在于管理科学、信息科学、系统科学、计算机科学、知识工程及可靠性技术等众多领域,其表现形式也是多种多样的,如随机性、模糊性、灰色性、粗糙性、模糊随机性、粗糙模糊性以及其它多重不确定性.虽然已有的随机理论[1]、模糊理论[2,3]、灰色理论[4]可以解决一部分随机决策、模糊收稿日期:2004-03-23 基金项目:国家863资助项目(2002AA414310);国家自然科学基金项目(70072020);山东省重点社科项目(03BJ Z12) 作者简介:程钧谟(1964-),男,教授,博士研究生. 第18卷第4期 山 东 理 工 大 学 学 报(自然科学版) Vol.18No.42004年7月 Journal of Shandong University of Technology (Sci &Tech ) J ul.2004

粗糙集理论及其发展

龙源期刊网 https://www.sodocs.net/doc/0716844092.html, 粗糙集理论及其发展 作者:张也驰 来源:《管理观察》2010年第16期 摘要:粗糙集理论以其出色的处理模糊和不确定知识的能力,在数据挖掘领域占据了越来越重要的地位。文章首先描述了粗糙集理论的核心思想,接着介绍了粗糙集理论在不完备信息系 统领域的扩充,最后论述了粗糙集理论的应用发展以及未来的研究方向。 关键词:粗糙集机器学习不完备信息系统数据挖掘 1.引言 粗糙集理论[1]是由波兰数学家Z. Pawlak于20世纪80年代提出的一种新的处理不精确性和不确定性信息的数学方法。之后国内外许多学者对粗糙集理论及其应用进行了坚持不懈的研究。1991年,Pawlak出版了第一本关于粗糙集理论的专著,详细介绍了粗糙集的理论基础,它奠定了粗糙集理论的基础,但由于最初关于粗糙集理论的研究大部分是用波兰语发表的,当时并没有引起国际计算机学界和数学界的重视;1992年,在波兰Kiekrz召开了第一届国际粗糙集研讨会, 从此每年一次以粗糙集理论为主题的国际研讨会以及粗糙集学术研究会的成立,推动了国际上 对粗糙集理论与应用的深入研究。1995年,Z. Pawlak概括性地介绍了粗糙集理论[2]的基本概念及其具体研究进展。我国对粗糙集理论的研究起步较晚。 粗糙集理论是建立在分类机制基础上的,它将知识理解为对数据的划分,每一个被划分的集合称为概念或范畴,其主要思想是利用已有的知识库,将不精确知识用已知知识库中的知识来(近似)刻画。与其他处理不精确性和不确定性信息的理论相比,该理论的一个最主要的优点是其无需提供任何除现有知识以外的任何先验知识,从而具有相当的客观性。近年来,由于粗糙集理论在人工智能和认知科学中日益呈现出的重要性和优越性,特别是在机器学习、数据挖掘、决策 分析、数据库知识发现、专家系统、决策支持系统、归纳推理和模式识别等领域,受到越来越 多的研究人员的关注。 2.粗糙集理论的基本概念 粗糙集理论作为一种处理模糊和不确定性知识的数学工具,其主要思想是在保持分类能力 不变的前提下,经过知识约简,导出问题的决策或分类规则。即粗糙集理论是建立在不可分辨关系基础知识的,不可分辨关系构成了粗糙集理论的数学基础。 2.1 知识表达系统和决策表

信息熵在图像处理中的应用

信息熵在图像处理中的应用 摘要:为了寻找快速有效的图像处理方法,信息理论越来越多地渗透到图像处理技术中。文章介绍了信息熵在图像处理中的应用,总 结了一些基于熵的图像处理特别是图像分割技术的方法,及其在这一领域内的应用现状和前景 同时介绍了熵在织物疵点检测中的应用。 Application of Information Entropy on Image Analysis Abstract :In order to find fast and efficient methods of image analysis ,information theory is used more and more in image analysis .The paper introduces the application of information entropy on the image analysis ,and summarizes some methods of image analysis based on information entropy ,especially the image segmentation method .At the same time ,the methods and application of fabric defect inspection based on information entropy ale introduced . 信息论是人们在长期通信实践活动中,由通信技术与概率论、随机过程、数理统计等学科相结合而逐步发展起来的一门新兴交叉学科。而熵是信息论中事件出现概率的不确定性的量度,能有效反映事件包含的信息。随着科学技术,特别是信息技术的迅猛发展,信息理论在通信领域中发挥了越来越重要的作用,由于信息理论解决问题的思路和方法独特、新颖和有效,信息论已渗透到其他科学领域。随着计算机技术和数学理论的不断发展,人工智能、神经网络、遗传算法、模糊理论的不断完善,信息理论的应用越来越广泛。在图像处理研究中,信息熵也越来越受到关注。 1 信息熵 1948年,美国科学家香农(C .E .Shannon)发表了一篇著名的论文《通信的数学理论》 。他从研究通信系统传输的实质出发,对信息做了科学的定义,并进行了定性和定量的描述。 他指出,信息是事物运动状态或存在方式的不确定性的描述。其通信系统的模型如下所示: 图1 信息的传播 信息的基本作用就是消除人们对事物的不确定性。信息熵是信息论中用于度量信息量的一个概念。假定X 是随机变量χ的集合,p (x )表示其概率密度,计算此随机变量的信息熵H (x )的公式是 P (x ,y )表示一对随机变量的联合密度函数,他们的联合熵H (x ,y )可以表示为 信息熵描述的是信源的不确定性,是信源中所有目标的平均信息量。信息量是信息论的中心概念,将熵作为一个随机事件的不确定性或信息量的量度,它奠定了现代信息论的科学理论基础,大大地促进了信息论的发展。设信源X 发符号a i ,的概率为Pi ,其中i=1,2,…,r ,P i >O ,要∑=r i Pi 1=1,则信息熵的代数定义形式为:

粗糙集理论介绍(对于初学者来说,很经典的滴)

粗糙集理论介绍面对日益增长的数据库,人们将如何从这些浩瀚的数据中找出有用的知识?我们如何将所学到的知识去粗取精?什么是对事物的粗线条描述什么是细线条描述?粗糙集合论回答了上面的这些问题。要想了解粗糙集合论的思想,我们先要了解一下什么叫做知识?假设有8个积木构成了一个集合A,我们记:A={x1,x2,x3,x4,x5,x6,x7,x8},每个积木块都有颜色属性,按照颜色的不同,我们能够把这堆积木分成R1={红,黄,兰}三个大类,那么所有红颜色的积木构成集合X1={x1,x2,x6},黄颜色的积木构成集合X2={x3,x4},兰颜色的积木是:X3={x5,x7,x8}。 按照颜色这个属性我们就把积木集合A进行了一个划分(所谓A的划分就是指对于A中的任意一个元素必然属于且仅属于一个分类),那么我们就说颜色属性就是一种知识。在这个例子中我们不难看到,一种对集合A的划分就对应着关于A中元素的一个知识,假如还有其他的属性,比如还有形状R2={三角,方块,圆形},大小R3={大,中,小},这样加上R1属性对A构成的划分分别为:A/R1={X1,X2,X3}={{x1,x2,x6},{x3,x4},{x5,x7,x8}} (颜色分类)A/R2={Y1,Y2,Y3}={{x1,x2},{x5,x8},{x3,x4,x6,x7}} (形状分类)A/R3={Z1,Z2,Z3}={{x1,x2,x5},{x6,x8},{x3,x4,x7}} (大小分类) 上面这些所有的分类合在一起就形成了一个基本的知识库。那么这个基本知识库能表示什么概念呢?除了红的{x1,x2,x6}、大的{x1,x2,x5}、三角形的{x1,x2}这样的概念以外还可以表达例如大的且是三角形的{x1,x2,x5}∩{x1,x2}={x1,x2},大三角{x1,x2,x5}∩{x1,x2}={x1,x2},兰色的小的圆形({x5,x7,x8}∩{x3,x4,x7}∩{x3,x4,x6,x7}={x7},兰色的或者中的积木{x5,x7,x8}∪{x6,x8}={x5,x6,x7,x8}。而类似这样的概念可以通过求交运算得到,比如X1与Y1的交就表示红色的三角。所有的这些能够用交、并表示的概念以及加上上面的三个基本知识(A/R1,A/R2.A/R3)一起就构成了一个知识系统记为R=R1∩R2∩R3,它所决定的所有知识是A/R={{x1,x2},{x3},{x4},{x5},{x6},{x7},{x8}}以及A/R中集合的并。 下面考虑近似这个概念。假设给定了一个A上的子集合X={x2,x5,x7},那么用我们的知识库中的知识应该怎样描述它呢?红色的三角?****的大圆?都不是,无论是单属性知识还是由几个知识进行交、并运算合成的知识,都不能得到这个新的集合X,于是我们只好用我们已有的知识去近似它。也就是在所有的现有知识里面找出跟他最像的两个一个作为下近似,一个作为上近似。于是我们选择了“兰色的大方块或者兰色的小圆形”这个概念:{x5,x7}作为X的下近似。选择“三角形或者兰色的”{x1,x2,x5,x7,x8}作为它的上近似,值得注意的是,下近似集是在那些所有的包含于X的知识库中的集合中求并得到的,而上近似则是将那些包含X的知识库中的集合求并得到的。一般的,我们可以用下面的图来表示上、下近似的概念。这其中曲线围的区域是X的区域,蓝色的内部方框是内部参考消息,是下近似,绿的是边界加上蓝色的部分就是上近似集。其中各个小方块可以被看成是论域上的知识系统所构成的所有划分。整个粗集理论的核心就是上面说的有关知识、集合的划分、近似集合等等概念。 下面我们讨论一下关于粗糙集在数据库中数据挖掘的应用问题。考虑一个数据库中的二维表如下:元素颜色形状大小稳定性 x1 红三角大稳定 x2 红三角大稳定 x3 黄圆小不稳定 x4 黄圆小不稳定 x5 兰方块大稳定 x6 红圆中不稳定 x7 兰圆小不稳定 x8 兰方块中不稳定 可以看出,这个表就是上面的那个例子的二维表格体现,而最后一列是我们的决策属性,也就是说评价什么样的积木稳定。这个表中的每一行表示了类似这样的信息:红色的大三角积木稳定,****的小圆形不稳定等等。我们可以把所有的记录看成是论域A={x1,x2,x3,x4,x5,x6,x7,x8},任意一个列表示一个属性构成了对论域的元素上的一个划分,在划分的每一个类中都具有相同的属性。而属性可以分成两大类,一类叫做条件属性:颜色、形状、大小都是,另一类叫做决策属性:最后一列的是否稳定? 下面我们考虑,对于决策属性来说是否所有的条件属性都是有用的呢?考虑所有决策属性是“稳定”的集合

信息熵及其性质和应用

农业大学 本科生课程论文 论文题目信息熵及其性质和应用学生专业班级信息与计算科学09级2班学生学号 20093992 指导教师吴慧 完成时间2012年06月25日 2012 年 06 月 25 日

课程论文任务书 学生指导教师吴慧 论文题目信息熵及其性质和应用 论文容(需明确列出研究的问题):研究信息熵的目的就是为了更深入的了解信息熵,更好的了解信息熵的作用,更好地使用它解决现实生活中的问题。文中介绍了信息熵的定义和性质及其应用。使我们对信息熵有跟深入的了解。 资料、数据、技术水平等方面的要求:论文要符合一般学术论文的写作规,具备学术性、科学性和一定的创造性。文字要流畅、语言要准确、论点要清楚、论据要准确、论证要完整、严密,有独立的观点和见解。容要理论联系实际,计算数据要求准确,涉及到他人的观点、统计数据或计算公式等要标明出处,结论要写的概括简短。参考文献的书写按论文中引用的先后顺序连续编码。 发出任务书日期 06月15日完成论文日期 06月25日 教研室意见(签字) 院长意见(签字)

信息熵及其性质和应用 信息与计算科学专业 指导教师吴慧 摘要:信息熵是随机变量不确定性的度量,文中从信息熵的定义出发,结合信息熵的性质,介绍了目前信息熵在具体问题中的应用。信息是一个十分通俗而又广泛的名词,它是人类认识世界、改造世界的知识源泉。人类社会发展的速度,在一定程度上取决于人类对信息利用的水平,所以对信息的度量就很有必要。香农提出信息的一种度量,熵的定义形式,它是随机变量不确定性的度量,文中主要介绍熵的性质及其应用。 关键词;信息熵性质应用 Information entropy and its properties and Application Student majoring in Information and Computing Science Specialty dongqiang Tutor WuHui Abstract:information entropy is a measure of uncertainty of random variable, this paper from the definition of information entropy, combined with the nature of information entropy, information entropy, introduced the specific issues in the application https://www.sodocs.net/doc/0716844092.html,rmation is a very popular and wi dely noun, it is human understanding of the world, transforming the world knowledge source . The human society development speed, depend on on certain level the human make use of information level, so the measurement information is necessary.Shannon put forward the informa-tion a kind of measurement, the definition of entropy form, it is the uncertainty of random variable metric, this paper mainly introduces the property of entropy and its application. Key words:information entropy properties application

相关主题