论文部分内容阅读
引言:贝叶斯算法是以著名数学家托马斯.贝叶斯(Thomas 贝叶斯)(1702-1761)命名的一种基于概率分析的可能性推理理论,通过分析过去事件的知识,来预测未来的事件。贝叶斯算法在实际生活中也有着广泛的应用。
贝叶斯公式是概率论中很重要的公式,在概率论的计算中起着很重要的作用,在实际生活中也有广泛的应用。本文对全概率公式和贝叶斯公式进行了仔细的分析,举例说明了它们的用法及它们所适用的概型.为了解决实际问题的需要,我们将全概率公式和贝叶斯公式进行了推广,这样使得贝叶斯公式的应用更为广泛,同样我也举例加以了说明。
1贝叶斯算法原理分析
Bayes法是一种在已知先验概率与条件概率的情况下的模式分类方法,待分样本的分类结果取决于各类域中样本的全体。
Bayes方法的薄弱环节在于实际情况下,类别总体的概率分布和各类样本的概率分布函数(或密度函数)常常是不知道的。为了获得它们,就要求样本足够大。另外,Bayes法要求表达文本的主题词相互独立,这样的条件在实际文本中一般很难满足,因此该方法往往在效果上难以达到理论上的最大值。
2贝叶斯法则
机器学习的任务:在给定训练数据D时,确定假设空间H中的最佳假设。
最佳假设:一种方法是把它定义为在给定数据D以及H中不同假设的先验概率的有关知识下的最可能假设。贝叶斯理论提供了一种计算假设概率的方法,基于假设的先验概率、给定假设下观察到不同数据的概率以及观察到的数据本身。
3先验概率和后验概率
用P(h)表示在没有训练数据前假设h拥有的初始概率。P(h)被称为h的先验概率。先验概率反映了关于h是一正确假设的机会的背景知识,如果没有这一先验知识,可以简单地将每一候选假设赋予相同的先验概率。类似地,P(D)表示训练数据D的先验概率,P(D|h)表示假设h成立时D的概率。机器学习中,我们关心的是P(h|D),即给定D时h的成立的概率,称为h的后验概率。
4贝叶斯公式
贝叶斯公式提供了从先验概率P(h)、P(D)和P(D|h)计算后验概率P(h|D)的方法:p(h|D)=P(D|H)*P(H)/P(D) ,P(h|D)随着P(h)和P(D|h)的增长而增长,随着P(D)的增长而减少,即如果D独立于h时被观察到的可能性越大,那么D对h的支持度越小。
5极大后验假设
学习器在候选假设集合H中寻找给定数据D时可能性最大的假设h,h被称为极大后验假设(MAP),确定MAP的方法是用贝叶斯公式计算每个候选假设的后验概率,计算式如下:
h_map=argmax P(h|D)=argmax (P(D|h)*P(h))/P(D)=argmax P(D|h)*p(h) (h属于集合H)
最后一步,去掉了P(D),因为它是不依赖于h的常量。
6极大似然假设
在某些情况下,可假定H中每个假设有相同的先验概率,这样式子可以进一步简化,只需考虑P(D|h)来寻找极大可能假设。
h_ml = argmax p(D|h) h属于集合H, P(D|h)常被称为给定h时数据D的似然度,而使P(D|h)最大的假设被称为极大似然假设。
7现实应用举例
一个医疗诊断问题,有两个可选的假设:病人有癌症、病人无癌症,[p(h1)=p(cancer),p(h2)=p(uncancer)]可用数据来自化验结果:正+和负-, [p(D1)= p(+),p(D2)=p(-),一般假设p(D1)=p(D2)],有先验知识:在所有人口中,患病率是0.008,对确实有病的患者的化验准确率为98%,对确实无病的患者的化验准确率为97%,总结如下:
P(cancer)=0.008, P(uncancer)=0.992
P(+|cancer)=0.98, P(-|cancer)=0.02
P(+|uncancer)=0.03, P(-|uncancer)=0.97
问题:假定有一个新病人,化验结果为正,是否应将病人断定为有癌症?求后验概率P(cancer|+)和P(uncancer|+)
因此极大后验假设计算如下:
P(cancer, +) = P(+|cancer)P(cancer)=0.008*0.98=0.0078
P(uncancer, +) = P(+|uncancer)P(uncancer)=0.992*0.03=0.0298
hMAP=uncancer
确切的后验概率可将上面的结果归一化以使它们的和为1
P(canner|+)=0.0078/(0.0078+0.0298)=0.21
P(cancer|-)=0.79
贝叶斯推理的结果很大程度上依赖于先验概率,另外不是完全接受或拒绝假设,只是在观察到较多的数据后增大或减小了假设的可能性。
注意:当训练数据的值是缺失时,即先验概率为0%,预测值不稳定。一般会给每个数据加1,使概率不会为0%。
8结束语
可以看到贝叶斯公式在解决实际问题时给我们带来很大的方便,而贝叶斯公式的推广形式也进一步拓展它的使用范围, 成为我们解决更为复杂问题的有效工具。但由于研究周期较短,本文只是举了一个例子来说明它的应用。事实上它的应用远不止这些,还可以用来解决投资、保险、工程等一系列不确定的问题。总之贝叶斯公式的应用及其推广形式的正确应用有助于进一步研究多个随机过程的试验中目标事件及其条件下各诱发事件的概率,有助于把握随机事件间的相互影响关系,为生产实践提供更有价值的决策信息。成为我们解决问题的有效工具。
参考文献
[1]夏克俭 张涛,基于贝叶斯算法的垃圾邮件过滤的研究[J],微计算机信息;2008年09期。
[2]胡学钢 郭亚光,一种基于粗糙集的朴素贝叶斯分类算法[J],合肥工业大学学报(自然科学版),2006年02期。
[3]Jonathan B.Postel, Simple Mail Transfer Protocol,RFC821,Aug 1982。
[4]Myers J.Post Office Protocol-version 3。RFC1725,Dover Bench Consulting,
Inc,1994,1。
(作者單位:黑龙江省政法管理干部学院 )
贝叶斯公式是概率论中很重要的公式,在概率论的计算中起着很重要的作用,在实际生活中也有广泛的应用。本文对全概率公式和贝叶斯公式进行了仔细的分析,举例说明了它们的用法及它们所适用的概型.为了解决实际问题的需要,我们将全概率公式和贝叶斯公式进行了推广,这样使得贝叶斯公式的应用更为广泛,同样我也举例加以了说明。
1贝叶斯算法原理分析
Bayes法是一种在已知先验概率与条件概率的情况下的模式分类方法,待分样本的分类结果取决于各类域中样本的全体。
Bayes方法的薄弱环节在于实际情况下,类别总体的概率分布和各类样本的概率分布函数(或密度函数)常常是不知道的。为了获得它们,就要求样本足够大。另外,Bayes法要求表达文本的主题词相互独立,这样的条件在实际文本中一般很难满足,因此该方法往往在效果上难以达到理论上的最大值。
2贝叶斯法则
机器学习的任务:在给定训练数据D时,确定假设空间H中的最佳假设。
最佳假设:一种方法是把它定义为在给定数据D以及H中不同假设的先验概率的有关知识下的最可能假设。贝叶斯理论提供了一种计算假设概率的方法,基于假设的先验概率、给定假设下观察到不同数据的概率以及观察到的数据本身。
3先验概率和后验概率
用P(h)表示在没有训练数据前假设h拥有的初始概率。P(h)被称为h的先验概率。先验概率反映了关于h是一正确假设的机会的背景知识,如果没有这一先验知识,可以简单地将每一候选假设赋予相同的先验概率。类似地,P(D)表示训练数据D的先验概率,P(D|h)表示假设h成立时D的概率。机器学习中,我们关心的是P(h|D),即给定D时h的成立的概率,称为h的后验概率。
4贝叶斯公式
贝叶斯公式提供了从先验概率P(h)、P(D)和P(D|h)计算后验概率P(h|D)的方法:p(h|D)=P(D|H)*P(H)/P(D) ,P(h|D)随着P(h)和P(D|h)的增长而增长,随着P(D)的增长而减少,即如果D独立于h时被观察到的可能性越大,那么D对h的支持度越小。
5极大后验假设
学习器在候选假设集合H中寻找给定数据D时可能性最大的假设h,h被称为极大后验假设(MAP),确定MAP的方法是用贝叶斯公式计算每个候选假设的后验概率,计算式如下:
h_map=argmax P(h|D)=argmax (P(D|h)*P(h))/P(D)=argmax P(D|h)*p(h) (h属于集合H)
最后一步,去掉了P(D),因为它是不依赖于h的常量。
6极大似然假设
在某些情况下,可假定H中每个假设有相同的先验概率,这样式子可以进一步简化,只需考虑P(D|h)来寻找极大可能假设。
h_ml = argmax p(D|h) h属于集合H, P(D|h)常被称为给定h时数据D的似然度,而使P(D|h)最大的假设被称为极大似然假设。
7现实应用举例
一个医疗诊断问题,有两个可选的假设:病人有癌症、病人无癌症,[p(h1)=p(cancer),p(h2)=p(uncancer)]可用数据来自化验结果:正+和负-, [p(D1)= p(+),p(D2)=p(-),一般假设p(D1)=p(D2)],有先验知识:在所有人口中,患病率是0.008,对确实有病的患者的化验准确率为98%,对确实无病的患者的化验准确率为97%,总结如下:
P(cancer)=0.008, P(uncancer)=0.992
P(+|cancer)=0.98, P(-|cancer)=0.02
P(+|uncancer)=0.03, P(-|uncancer)=0.97
问题:假定有一个新病人,化验结果为正,是否应将病人断定为有癌症?求后验概率P(cancer|+)和P(uncancer|+)
因此极大后验假设计算如下:
P(cancer, +) = P(+|cancer)P(cancer)=0.008*0.98=0.0078
P(uncancer, +) = P(+|uncancer)P(uncancer)=0.992*0.03=0.0298
hMAP=uncancer
确切的后验概率可将上面的结果归一化以使它们的和为1
P(canner|+)=0.0078/(0.0078+0.0298)=0.21
P(cancer|-)=0.79
贝叶斯推理的结果很大程度上依赖于先验概率,另外不是完全接受或拒绝假设,只是在观察到较多的数据后增大或减小了假设的可能性。
注意:当训练数据的值是缺失时,即先验概率为0%,预测值不稳定。一般会给每个数据加1,使概率不会为0%。
8结束语
可以看到贝叶斯公式在解决实际问题时给我们带来很大的方便,而贝叶斯公式的推广形式也进一步拓展它的使用范围, 成为我们解决更为复杂问题的有效工具。但由于研究周期较短,本文只是举了一个例子来说明它的应用。事实上它的应用远不止这些,还可以用来解决投资、保险、工程等一系列不确定的问题。总之贝叶斯公式的应用及其推广形式的正确应用有助于进一步研究多个随机过程的试验中目标事件及其条件下各诱发事件的概率,有助于把握随机事件间的相互影响关系,为生产实践提供更有价值的决策信息。成为我们解决问题的有效工具。
参考文献
[1]夏克俭 张涛,基于贝叶斯算法的垃圾邮件过滤的研究[J],微计算机信息;2008年09期。
[2]胡学钢 郭亚光,一种基于粗糙集的朴素贝叶斯分类算法[J],合肥工业大学学报(自然科学版),2006年02期。
[3]Jonathan B.Postel, Simple Mail Transfer Protocol,RFC821,Aug 1982。
[4]Myers J.Post Office Protocol-version 3。RFC1725,Dover Bench Consulting,
Inc,1994,1。
(作者單位:黑龙江省政法管理干部学院 )