搜档网
当前位置:搜档网 › 贝叶斯公式的经验之谈

贝叶斯公式的经验之谈

贝叶斯公式的经验之谈
贝叶斯公式的经验之谈

贝叶斯公式的经验之谈-CAL-FENGHAI.-(YICAI)-Company One1

贝叶斯公式的经验之谈

一、综述

在日常生活中,我们会遇到许多由因求果的问题,也会遇到许多由果溯因的问题。比如某种传染疾病已经出现.寻找传染源;机械发生了故障,寻找故障源就是典型的南果溯因问题等。在一定条件下,这类由果溯因问题可通过贝叶斯公式来求解。以下从几个的例子来说明贝叶斯公式的应用。

文【1】主要应用贝叶斯公式的简单情形,从“疾病诊断”,“说谎了吗”,“企业资质评判”,“诉讼”四个方面讨论其具体应用。文【2】用市场预测的实例,介绍了贝叶斯公式在市场预测中的应用。贝叶斯市场预测能对信息的价值是否需要采集新的信息做出科学的判断。文【3】、文【4】介绍贝叶斯过滤技术的工作原理及技术原理,讨论了邮件过滤模块,通过分析研究该模块中垃圾邮件关键词的统计概率分布,提出了基于贝叶斯概率模型的邮件过滤算法,并对该算法的合理性和复杂度进行了分析。可以根据垃圾邮件内容的特征,建立贝叶斯概率模型,计算出一封邮件是垃圾邮件的概率,从而判断其是否为垃圾邮件。文【5】基于贝叶斯公式中概率统计的重要性与在日常生活中应用的广泛性,概述了贝叶斯统计的基本思想及其与其他统计学派的争论,并对作为贝叶斯统计基石的贝叶斯公式进行了归纳。

二.内容

1.疾病诊断.

资料显示, 某项艾滋病血液检测的灵敏度( 即真有病的人检查为阳性) 为95%, 而对没有得病的人,种检测的准确率( 即没有病的人检查为阴性) 为99%. 美国是一个艾滋病比较流行的国家, 估计大约有千分之一的人患有这种病. 为了能有效地控制、减缓艾滋病的传播, 几年前有人建议对申请新婚登记的新婚夫妇进行这种血液检查. 该计划提出后, 征询专家意见, 遭到专家的强烈反对, 计划没有被通过.

我们用贝叶斯公式分析专家为何反对通过这项计划.

设A= {检查为阳性}, B = { 一个人患有艾滋病}。据文中叙述可知:

()0.001,(|)0.95,()10.0010.999,(|)10.990.01P B P A B P B P A B ===-==-= 由公式: ()()(|)()((|)P A P B P A B P B P A B =+

得: ()0.001*0.950.999*0.010.01094P A =+= 由公式:()(|)(|)()P A P A B P A B P A = 得:0.001*0.95(|)0.0870.01094

P B A =≈ 也就是说, 被检测患有艾滋病而此人确实患有该病的概率大约为0. 087. 这个结果使人难以接受, 好像与实际不符. 从资料显示来看, 这种检测的精确性似乎很高. 因此, 一般人可能猜测, 如果一个人检测为阳性, 他患有艾滋病的可能性很大, 估计应在90% 左右, 然而计算结果却仅为8. 7%. 如果通过这项计

划, 势必给申请登记的新婚夫妇带来不必要的恐慌. 因为约有91. 3%的人并没有患艾滋病. 为什么会出现与直觉如此相悖的结果呢 这是因为人们忽略了一些基础信息, 就是患有艾滋病的概率很低, 仅为千分之一. 因此, 在检测出呈阳性的人中大部分是没有患艾滋病的. 具体的说, 若从该地随机抽取1000 个

居民, 则根据经验概率的含义, 这1000 居民中大约有1 人患有艾滋病, 999人未换艾滋病. 检查后, 大约有1*0.95999*0.0110.94+=个人检查为阳性, 而在这个群体中真正患有艾滋病却仅有1 人. 因此有必要进行进一步的检测.

但是, 我们也应该注意到, 这项检测还是为我们提供了一些新的信息. 计算结果表明, 一个检测结果呈阳性的人患有艾滋病的概率从最初的0. 001 增加到了0. 087, 这是原来患有艾滋病概率的87倍.

进一步的计算, 我们得到一个检查呈阴性而患有艾滋病的概率为: ()(|)0.001*0.05(|)0.000060.98906()

P B P A B P B A P A ==≈ 因此, 通过这项检测, 检查呈阴性的人大可放宽心, 他患有艾滋病的概率已从千分之一降低到十万分之六。

2. 诉讼.

1981 年3 月30 日, 一个大学退学学生欣克利( John Hinckley Jr. ) 企图对里根总统行刺. 他打伤了里根、里根的新闻秘书以及两个保安. 在1982 年宣判他时, 欣克利的辩护律师以精神病为理由作为其无罪的辩护。 作证的医师告诉法院当给被诊断为精神分裂症的人以CAT 扫描时, 扫描显示30% 的案例为脑萎缩, 而给正常人以CAT 扫描时, 只有2%的扫描显示脑萎缩. 欣克利的辩护律师试图拿欣克利的CA T 扫描结果为证据, 争辩说因为欣克利的扫描显示了脑萎缩, 他极有可能患有精神病, 从而应免受到法院的起诉。

我们尝试用贝叶斯方法对欣克利是否患有精神病做出判断. 一般地, 在美国精神分裂症的发病率大约为1. 5% :设A = {CAT 扫描显示脑萎缩} ; B = { 做扫描的人患有精神病} . 根据上文的叙述可知,

()0.005,(|)0.3,()10.0150.985,(|)0.02P B P A B P B P A B ===-==

由公式:()()(|)()((|)

P A P B P A B P B P A B

=+

得:()0.005*0.30.985*0.020.0242 P A=+=

由公式:

()(|)

(|)

()

P A P A B

P A B

P A

=得:

0.015*0.05

(|)0.186

0.0242

P B A=≈

这意味着即使欣克利的扫描显示了脑萎缩, 他也只有18. 6%的可能患有精神病, 因此CAT 扫描无法作为其无罪的证据.

3. 贝叶斯公式在市场预测中的应用(修正主观概率).

在定性预测方法中,有一种集合意见法,就是主管人员召集营销人员对预测对象进行座谈讨论,提出方案。在集中意见时,常采用主观概率法加以合成,求出期望值。如甲营销人员对某种商品销售量的估计最高为1000,最可能为800,最低为500,主持预测者将根据他平时对市场行情的了解程度和分析判断能力,给三种估计以可能实现的概率。设过去十次预测中,这位营销人员的预测期望值为:

100*0.3800*0.5500*0.2800

++=

如果我们把每次预测成功置于一定的条件下来考察(见表1),就是贝叶斯公式对原先所给的主观概率予以修正。

表1 甲营销人员预测效果表

表中数字为预测成功的次数,成功的标准可以假定一个区间,如5%

+,实际值落入这个区间即为成功。

在进行这一次新的预测时,已知该商品的货源偏紧,在此信息条件下计算验后概率,先确定检验前概率P(Bi)。即原先给的主观概率:从过去10 次成功的预测中,最高销售量是3 次,最可能销售量是5 次,最低销售量是2 次。从而可推断P(Bi)分别为3/10、5/10、2/10 最为确切。再找条件概率P(A/Bi),这是指以三种预测结果为条件能获信息A 的概率。由表1 可知预测最高销售量成功三次,其中货源偏紧的一次,即有:(/1)1/3

P A B=,预测最可能销售量成功五次,其中货

源偏紧二次,即有:(/2)2/5

P A B=,预测最低销售量成功二次,其中货源偏

紧一次,即有:(/3)1/2

P A B=,最后计算检验后概率

31*1103(1/)0.253152214***103105102

P B A ===++ 52*1105(2/)0.53152212***103105102

P B A ===++ 21*1102(3/)0.253152214***103105102

P B A ===++ 即在货源偏紧的条件下,三种预测结果的可能性分为,,,因此检验后概率计算期望值为:1000*0.25800*0.5500*0.25775++=

4. 贝叶斯过滤技术.

、贝叶斯过滤技术的工作原理

根据贝叶斯理论,根据已经发生的时间可以预测未来事件发生的可能性。将该理论运用到反垃圾邮件上:若已知某些字词经常出现在垃圾邮件中,却很少出现在合法邮件中,当一封邮件含有这些字词时,那么他是垃圾邮件的可能性就很大。

⑴创建基于字词符号的贝叶斯数据库

用户首先需要对贝叶斯进行培训,即将邮件分类为垃圾邮件(用户不想要的)和正常邮件(用户想要的),贝叶斯将提取这些邮件样本中主题和信体中的独立字串,包括字词(word )和符号(token )(如$,IP 地址,域名等),并建立相应的数据库。

⑵创建贝叶斯概率库

统计出每个字串在垃圾邮件中出现的概率以及在正常邮件中出现的概率,然后根据公式计算出邮件中含某字串则为垃圾邮件的概率。例如:在3000封垃圾邮件样本中"mortgage"(抵押)出现了400次,而在300封正常邮件中这个词出现了5次,那么其对应的垃圾概率为([400/3000] /[5/300+400/3000])。

⑶创建个性化的贝叶斯库

由于每个单位对所收到的邮件偏好是不同的,例如,某个金融类单位在正常邮件中可能经常用到" mortgage "这个词,如果使用静态的关键词过滤,就可能产生很多误判。如果采用贝叶斯过滤,在对贝叶斯进行培训的时候,将该单位的合法邮件(自然,很多都包含了" mortgage "这个词)分类为正常邮件。这样,垃圾邮件的识别率将更高,同时也使得误判率变得很低。

贝叶斯过滤算法的主要思想是在已知的大量垃圾邮件中,邮件中包含一些特征串(token ),这些特征串可以简单的理解为一个完整的单词,但实际上它不仅仅限于单词,它们一般出现在邮件中的频率特别高,而在一些合法邮件中,另一些特征串出现的频率也很高。一般而言,对于同一个特征串出现在垃圾邮件和合法邮件中的概率是不同的。因此,对于出现的每一个特征串,都会生成一个“垃圾邮件指示性概率”(spam ratio )。所以我们就可以判断文本消息的整体“垃圾邮件概率”。

在垃圾邮件的处理中,对token 的定义方法有很多种,如字母、数字、破折号、撇号、美元号等,还有在收件人,发件人和主题等这些栏中出现的token 作为相应的标记。根据一些划分方法从邮件中提取标识时,得到标识的数量比较大时,这样处理工作带来了较大的计算开销,使整个处理过程的效率下降。另外,有些标识,例如a 、the 、of 、for 等,这些词出现的频率虽然很高,但它们在一封邮件中频繁出现我们并不能说明这封邮件是垃圾邮件还是合法邮件。因此,必须对标识进行必要的细化处理,找出这些非用词放入一个表中,保留其他的标识为以后工作使用。

、贝叶斯方法过滤垃圾邮件的基本技术原理

⑴收集大量的垃圾邮件和非垃圾邮件,建立垃圾邮件集和非垃圾邮件集。 ⑵提取邮件主题和邮件体中的独立字串作为TOKEN 串,并统计提取它的TOKEN 串出现的次数,即字频。

⑶每一个邮件集对应一个哈希表,设hashtable_good 对应非垃圾邮件集而hashtable_good 对应垃圾邮件集。表中存储TOKEN 串到字频的映射关系。

⑷计算每个哈希表中TOKEN 串出现的概率P=(某TOKEN 串的字频)/(对应哈希表的长度)。

⑸综合考虑hashtable_good 和hashtable_bad ,推断出当新来的邮件中出现某个TOKEN 串时,该新邮件为垃圾邮件的概率。数学表达式为:

A 事件----邮件为垃圾邮件;2,,n t t t 1代表TOKEN 串,则)/(i t A P 表示在邮件中出现TOKEN 串i t 时,该邮件为垃圾邮件的概率。

设:()()1_i i P t t hashtable good =在中的值

)_()(2中的值在bad hashtable t t P i i =

则=)/(i t A P )

()()(211i i i t P t P t P +; ⑹建立新的哈希表 hashtable_probability 存储TOKEN 串i t 到)/(i t A P 的映射。

⑺此时垃圾邮件集和非垃圾邮件集的学习过程结束。根据建立的

hashtable_probability 估计一封新到的邮件为垃圾邮件的可能性。

当新到一封邮件时,按照步骤2生成TOKEN 串。查询hashtable_probability 得到该TOKEN 串的键值。

假设由该邮件共得到N 个TOKEN 串,1,2

,n t t t , hashtable_probability 中对应的值为12,,

n P P P ,),/(,21n t t t A P 表示在邮件中同时出现多个TOKEN 串12,n t t t 时,该邮件为垃圾邮件的概率。 由复合概率公式得:)1()1()1(),,/(21212121n n n n P P P P P P P P P t t t A P -*-*-+****= 当),/(,21n t t t A P 超过预定阈值时,就可以判断邮件为垃圾邮件。

、贝叶斯过滤的优点

⑴贝叶斯过滤技术对邮件的所有内容进行分析,不仅仅是其中的某个关键词,而且他能判别邮件是垃圾邮件还是正常邮件。例如:包含“free”“cash”“发票”字样的邮件不一定是垃圾邮件,如果采用关键字过滤技术,显然难以达到理想的效果。而贝叶斯呢,即考虑了这些词在垃圾邮件中出现的概率又考虑了它在正常邮件中的概率,综合考虑这些因素才做出判断。可以说,贝叶斯具有一定的智能,它对邮件中的关键词汇能综合的进行评判,可以把握“好”与“坏”之间的平衡。显然,这种技术远远高于非1即0的静态过滤技术。

⑵贝叶斯过滤技术具备自适应功能――通过学习新的垃圾邮件及正常邮件样本,贝叶斯将能对抗最新的垃圾邮件。并且对变体字有奇效。比如,垃圾邮件发送者开始使用"f-r-e-e"来代替“free”这样能够绕过关键字检查,除非"f-r-e-e"被加到新的关键字中。对贝叶斯而言,当它发现邮件中含有"f-r -e-e"时,由于正常邮件中从来没有发现这个词,因此他是垃圾邮件的可能性将急剧增加,"f-r-e-

e"这个新词无疑成了垃圾邮件的指示器。在比如,垃圾邮件中用5e代替se,贝叶斯也推算出他是垃圾邮件的可能性也急剧增加。

⑶贝叶斯过滤技术更加个性化。他能学习并理解用户对邮件的偏好。如前所述,‘mortgage’抵押一词对软件单位而言意味者垃圾,但对金融类单位则意味着好邮件。贝叶斯能根据用户的这种偏好进行处理。

⑷贝叶斯过滤技术支持多语种或者说与编码无关。对于贝叶斯而言,他分析的是字串,无论他是字、词、符号、还是别的什么,当然更与语言无关。

⑸贝叶斯过滤器很难被欺骗。垃圾邮件发送高手通常通过减少垃圾词汇(如free、viagra、发票)或者在信中多掺一些好的词汇(如合同、文件)来绕过检查一般的邮件内容检查,但由于贝叶斯具有的个性化色彩,要想成功的绕过贝叶斯的检查,他就不得不对每个收件人的偏好进行研究,这简直是“不可能完成的任务”。垃圾邮件发送者无法容忍的。若采用变化字,则如前所述贝叶斯

判断其为垃圾邮件的可能性反而增加。

5.贝叶斯统计及其争论.

目前,针对其他学派指责最多的“先验分布如何确定”这个贝叶斯统计的难点。已初步研究出了以下方法:(1)无信息先验分布;(2)共轭先验分布;(3)用经验贝叶斯方法确定先验分布;(4)用最大熵方法确定先验分布;(5)用专家经验确定先验分布;(6)用自助(Bootstrap)法和随机加权法确定先验分布。贝叶斯方法在可靠性分析中有着重要的应用。数据少是可靠性分析的特点。由于可靠性分析的对象大多是精密、贵重的仪器设备.试验费用大,样本量小到甚至只有一、二次的试验结果。在这种情况下去分析设备的可靠性指标。须尽可能地搜集、综合各种验前经验,整理、推导出参数的先验分布。而先验分布的确定不是凭空捏造的,是通过正常的逻辑思维获得的。先验分布的使用,成为验后样本最不足的合理的补充。

贝叶斯统计和频率统计都服从1933年柯尔莫哥洛夫提出的概率公理体系,运用概率论知识进行其理论推导。先验分布的确定体现了贝叶斯统计的特色,使贝叶斯统计成为处理实际问题的简明有效的方法。面向实际,突出实效也是贝叶斯统计生命力之所在。

二、文献列表

【1】杨静,陈东,程小红.贝叶斯公式的几个应用.大学数学.第27卷第2期2011年4月.第166-169页。

【2】周丽华.市场预测中的贝叶斯公式应用.商场现代报.总第487期2006年12月(上旬刊).第55,56页。

【3】刘明川,彭长生.基于贝叶斯概率模型的邮件过滤算法探讨.重庆邮电学院学报(自然科学版).第17卷第5期2005年10月.第1-5页。

【4】易均,李晖,王歆.基于贝叶斯技术的垃圾邮件处理研究. 江西省科学院,江西南昌330029。

【5】王洪春.贝叶斯公式与贝叶斯统计.重庆科技学院学报(自然科学版).第10卷第3期2010年6月.第203-205页。

相关主题