贝叶斯文本分类器的研究与改进

来源 :太原理工大学 | 被引量 : 6次 | 上传用户:ZF6VE5
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络信息的发展,信息自动分类已经成为人们获取有用信息不可或缺的工具。贝叶斯作为其中的一种分类方式,应用在众多领域。贝叶斯方法的一大优点是利用了先验信息,能够在不确定性的推理中提供一种模式和处理方法。 本文首先对文本分类系统以及贝叶斯分类模型作了分析和探讨,包括文本信息的表示、提取,文本分类的方法以及贝叶斯用于文本分类的模型和算法。然后,本文分析了贝叶斯分类的数据稀疏的问题,讨论了所采用的laplace平滑方法的缺陷,提出了用统计语言模型uni-gram的平滑方法来改进数据稀疏状况,并介绍了uni-gram模型的三种平滑方法,分别是Jelinek-Mercer平滑方法、Dirichlet方法以及绝对折扣法。 最主要的工作是用统计语言模型的平滑方法改进了贝叶斯分类器,就是用uni-gram的三种平滑方式代替了贝叶斯原来的laplace平滑,提出了具体的算法和实现框图。并且对改进了的贝叶斯进行了实验分析,选择了合适的平滑参数取值,与原来的分类器在性能上作了比较,取得了较高的分类准确率和召回率。 今后,应该用统计语言模型的Bi-gram,Tri-gram模型来更好
其他文献
本文首先根据工厂车间生产模式给出了基于工序模式的遗传算法编码设计方式,并且基于这种编码方式对车间作业调度的成本模型做了优化。 然后本文以一个简单例子,讨论了车间
以信息化为主要标志的第五次产业革命,正在引起人类生产方式、生活方式和价值观念的深刻变化,数字化、智能化的家居生活成为人们追求的目标。智能家庭网络利用多种传输介质将
在国内外,家庭智能经过十余年的发展,得到越来越多人的青睐。但是,目前市场上的家庭智能系统还存在很多不足,因此,开发一个全新的家庭智能系统迫在眉睫。 在本论文中,研究
关系数据库的广泛使用促成了数据挖掘技术的诞生。数据挖掘系统在金融业,电信和零售等有着巨大的应用前景。随着大量数据挖掘系统的使用,不同的数据挖掘系统开发商之间,不同的研
Internet的迅猛发展带来了一系列问题,例如路由、资源预留和网络管理等问题。由于在Internet上实验非常昂贵而且因为一些商业因素的限制,研究者不可能直接在Internet上模拟和
机群就是通过高性能网络或局部网络将一组计算机系统(节点)互联,形成的具有单一系统映像的高性能、高可用性、高扩展性的计算机集群系统。由于机群系统结构松散、结点独立性
本文主要介绍了手持设备汉字输入法的自动生成技术,并利用该技术实现了一个手持设备汉字输入法自动生成器。该生成器提供了一个开放的模板库与码本自动压缩模块,可以为用户提
本文所讨论的消息服务规范ebMS就是为B2B电子商务模式提供信息交换平台的机制,它是整个商务模式的基础,具有关键作用.本文围绕ebMS给出其规范分析、平台实现、对此平台进行的
  本文在研究了基于支持向量机的音乐分类方法基础上,针对隐马尔可夫模型适于处理连续信号和支持向量机适于处理分类问题的特点,提出一种支持向量机和隐马尔可夫相结合的混合
铁路信号联锁系统是行车安全的技术保障系统,就技术方面而言,铁路信号系统已经历了机械联锁、电气联锁(继电联锁)等阶段.随着电子技术、计算机的发展以及容错、避错理论与技