贝叶斯算法的实际应用分析

来源 :中国电子商情 | 被引量 : 0次 | 上传用户:rocket830214
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  引言:贝叶斯算法是以著名数学家托马斯.贝叶斯(Thomas 贝叶斯)(1702-1761)命名的一种基于概率分析的可能性推理理论,通过分析过去事件的知识,来预测未来的事件。贝叶斯算法在实际生活中也有着广泛的应用。
  贝叶斯公式是概率论中很重要的公式,在概率论的计算中起着很重要的作用,在实际生活中也有广泛的应用。本文对全概率公式和贝叶斯公式进行了仔细的分析,举例说明了它们的用法及它们所适用的概型.为了解决实际问题的需要,我们将全概率公式和贝叶斯公式进行了推广,这样使得贝叶斯公式的应用更为广泛,同样我也举例加以了说明。
  1贝叶斯算法原理分析
  Bayes法是一种在已知先验概率与条件概率的情况下的模式分类方法,待分样本的分类结果取决于各类域中样本的全体。
  Bayes方法的薄弱环节在于实际情况下,类别总体的概率分布和各类样本的概率分布函数(或密度函数)常常是不知道的。为了获得它们,就要求样本足够大。另外,Bayes法要求表达文本的主题词相互独立,这样的条件在实际文本中一般很难满足,因此该方法往往在效果上难以达到理论上的最大值。
  2贝叶斯法则
  机器学习的任务:在给定训练数据D时,确定假设空间H中的最佳假设。
  最佳假设:一种方法是把它定义为在给定数据D以及H中不同假设的先验概率的有关知识下的最可能假设。贝叶斯理论提供了一种计算假设概率的方法,基于假设的先验概率、给定假设下观察到不同数据的概率以及观察到的数据本身。
  3先验概率和后验概率
  用P(h)表示在没有训练数据前假设h拥有的初始概率。P(h)被称为h的先验概率。先验概率反映了关于h是一正确假设的机会的背景知识,如果没有这一先验知识,可以简单地将每一候选假设赋予相同的先验概率。类似地,P(D)表示训练数据D的先验概率,P(D|h)表示假设h成立时D的概率。机器学习中,我们关心的是P(h|D),即给定D时h的成立的概率,称为h的后验概率。
  4贝叶斯公式
  贝叶斯公式提供了从先验概率P(h)、P(D)和P(D|h)计算后验概率P(h|D)的方法:p(h|D)=P(D|H)*P(H)/P(D) ,P(h|D)随着P(h)和P(D|h)的增长而增长,随着P(D)的增长而减少,即如果D独立于h时被观察到的可能性越大,那么D对h的支持度越小。
  5极大后验假设
  学习器在候选假设集合H中寻找给定数据D时可能性最大的假设h,h被称为极大后验假设(MAP),确定MAP的方法是用贝叶斯公式计算每个候选假设的后验概率,计算式如下:
  h_map=argmax P(h|D)=argmax (P(D|h)*P(h))/P(D)=argmax P(D|h)*p(h) (h属于集合H)
  最后一步,去掉了P(D),因为它是不依赖于h的常量。
  6极大似然假设
  在某些情况下,可假定H中每个假设有相同的先验概率,这样式子可以进一步简化,只需考虑P(D|h)来寻找极大可能假设。
  h_ml = argmax p(D|h) h属于集合H, P(D|h)常被称为给定h时数据D的似然度,而使P(D|h)最大的假设被称为极大似然假设。
  7现实应用举例
  一个医疗诊断问题,有两个可选的假设:病人有癌症、病人无癌症,[p(h1)=p(cancer),p(h2)=p(uncancer)]可用数据来自化验结果:正+和负-, [p(D1)= p(+),p(D2)=p(-),一般假设p(D1)=p(D2)],有先验知识:在所有人口中,患病率是0.008,对确实有病的患者的化验准确率为98%,对确实无病的患者的化验准确率为97%,总结如下:
  P(cancer)=0.008, P(uncancer)=0.992
  P(+|cancer)=0.98, P(-|cancer)=0.02
  P(+|uncancer)=0.03, P(-|uncancer)=0.97
  问题:假定有一个新病人,化验结果为正,是否应将病人断定为有癌症?求后验概率P(cancer|+)和P(uncancer|+)
  因此极大后验假设计算如下:
  P(cancer, +) = P(+|cancer)P(cancer)=0.008*0.98=0.0078
  P(uncancer, +) = P(+|uncancer)P(uncancer)=0.992*0.03=0.0298
  hMAP=uncancer
  确切的后验概率可将上面的结果归一化以使它们的和为1
  P(canner|+)=0.0078/(0.0078+0.0298)=0.21
  P(cancer|-)=0.79
  贝叶斯推理的结果很大程度上依赖于先验概率,另外不是完全接受或拒绝假设,只是在观察到较多的数据后增大或减小了假设的可能性。
  注意:当训练数据的值是缺失时,即先验概率为0%,预测值不稳定。一般会给每个数据加1,使概率不会为0%。
  8结束语
  可以看到贝叶斯公式在解决实际问题时给我们带来很大的方便,而贝叶斯公式的推广形式也进一步拓展它的使用范围, 成为我们解决更为复杂问题的有效工具。但由于研究周期较短,本文只是举了一个例子来说明它的应用。事实上它的应用远不止这些,还可以用来解决投资、保险、工程等一系列不确定的问题。总之贝叶斯公式的应用及其推广形式的正确应用有助于进一步研究多个随机过程的试验中目标事件及其条件下各诱发事件的概率,有助于把握随机事件间的相互影响关系,为生产实践提供更有价值的决策信息。成为我们解决问题的有效工具。
  参考文献
  [1]夏克俭 张涛,基于贝叶斯算法的垃圾邮件过滤的研究[J],微计算机信息;2008年09期。
  [2]胡学钢 郭亚光,一种基于粗糙集的朴素贝叶斯分类算法[J],合肥工业大学学报(自然科学版),2006年02期。
  [3]Jonathan B.Postel, Simple Mail Transfer Protocol,RFC821,Aug 1982。
  [4]Myers J.Post Office Protocol-version 3。RFC1725,Dover Bench Consulting,
  Inc,1994,1。
  (作者單位:黑龙江省政法管理干部学院 )
其他文献
引言:用户黏性关系到网站对客户的吸引程度,对实现网站的商业价值、增加客户重复购买和交叉购买都起到不可忽略的作用。本文网站用户黏性的影响,增加网站用户黏性的途径等进行了探讨。  高重复购买率能给电商带来巨大的毛利率,促进电商达到盈利目标。日前艾瑞网公布的2012年上半年电商网站月均重复购买率榜单,国内领先的名品折扣电商唯品会高居榜首,月均复购率达82.41%,领跑整个电商行业。从唯品会的分析数据来看
期刊
引言:电子档案管理的风险控制,是相关工作当中的重点和要点。文章将针对这一方面的内容展开论述,详细的分析了电子信息档案的风险控制方案措施,并且对避免风险的措施、分散风险的措施以及评估风险的措施,都进行了深层次的研究,力求更进一步的为有关工作的开展与进行,奠定坚实的基础。  目前阶段的电子计算机技术在人们生活和工作当中的作用越来越突出,并且其多样化的功能以及突出的使用效果,使得计算机的应用层面越来越广
期刊
引言:本文首先概述了科学合理编制和落实水土保持方案既能体现编制者的水平,同时又能保证项目建设施工后不会产生新的水土流失以及水土保持数据信息上报系统建设的合理科学性,接着阐述了数据信息上报系统总体功能,最后阐述水土保持数据信息上报系统建设的重要性。  赣榆县位于江苏省东北部,地处鲁东南丘陵与苏北黄海平原交接地带,多数为低山丘陵区,自然植被较差,植被覆盖率低。近年来,随着经济的迅速发展,开发建设项目的
期刊
引言:各大运营商不计成本、大举推广一卡通为核心的移动支付业务,价格竞争日益加剧,行业信息化应用拓展工作难度增加。以最低成本、最稳定技术、满足用户需求,保持较高的市場占有率,是电信运营商在竞争中亟待解决的问题。  河北联通利用自身网络优势,整合资源,打造近场通信卡管理平台,有效的解决了上述问题,为提高通信运营商在移动支付产业链中的地位奠定了基础。  一、管理平台的内涵及特点  近场通信卡平台铁三角管
期刊
引言:本文讲述了信息化安全生产监管及应急救援体系建设的必要性,针对现行安全生产监管及应急救援管理需求,提出了安全生产监管和应急救援管理系统建设的基本原则、逻辑架构以及实现的业务功能。  随着我国国民经济的快速发展,城市规模、企业规模不断扩大,安全生产监管体系的建设需求变得日益紧迫,对重特大生产安全事故的监管防范工作也日益繁重,安全生产监管工作十分艰巨。  1、建设原则:  系统的建设原则是统筹规划
期刊
引言:档案信息自动化系统的管理,是档案信息管理工作当中的一个重点环节。文章将针对这一方面的内容展开论述,详细的分析加强档案信息自动化系统管理的方案措施,并且对多个方面的改进工作进行了深层次的研究,力求为档案信息管理系统的进步,做出积极的贡献。  档案信息自动化系统,是一项需要综合的运用多个专业的知识、多个学科的概念,同时结合多个部门的工作进行协调的较为复杂的系统性工程。而系统的建设发展到目前阶段,
期刊
引言:本文主要简要介绍如何使用JAVA语言进行编程实现计算机网络通信协议要求的各项具体功能,使用JAVA语言编程完成计算机网络底层通信协议,是JAVA网络编程不可或缺的组成部分。  Java语言具有平台无关特性、安全机制、高可靠性和内嵌的网络支持,使之成为当前编写网路应用程序的首选工具之一。网络应用的核心思想是联入网络的不同计算机能够跨越空间协同工作,这首先要求它们之间能够准确、迅速的传递信息,在
期刊
引言:本文以固定资产折旧方法为研究对象,阐述了固定资产具有潜在的为企业谋取利益的能力,這种,能力随着固定资产价值的转移,以折旧的形式在产品销售收入中得到补偿而逐渐消退直到消失。折旧的计提也就是固定资产在资产使用年限内系统和合理的分配过程。探讨了固定资产折旧方法选择需要考虑的因素,几种固定资产折旧法的比较和分析,采用不同折旧方法对企业财务的影响,完善固定资产折旧制度的基本思路。  随着进入21世纪以
期刊
引言:计算机技术的发展奠定了多个领域的技术基础,随着网络时代的来临,互联网也买年越来越个性化与丰富化,从而大大增强了网页的可视化程度,提高了浏览的乐趣。网页设计主要的技术领域就是平面设计领域,包括Photoshop在内的多款计算机应用软件。此外,工业领域中的Auto CAD同样是计算机平面软件的主要技术应用。因此,本文重点分析计算机平面设计软件的应用与技术领域的结合。  计算机平面设计软件的主要应
期刊
引言:电子商务网站构建过程中,如果没有进行有针对性的SEO,就会导致网站搜索的排名靠后,不能最大限度的发挥网站的功能。本文技术的层面详细解析了电子商务网站的优化策略,为电子商务网站的SEO提供了宝贵的参照。  随着电子商务的飞速发展,越来越多的企业开始建立自己的电子商务网站,应用互联网的广域性宣传企业形象、拓展业务,推广产品。然而网站建立后并没有做针对性的SEO优化,导致企业网站访问量小,关键字排
期刊