基于贝叶斯的文本分类方法研究

来源 :山西大学 | 被引量 : 0次 | 上传用户:quake_bj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
90年代以来,随着信息存储技术和通讯技术的发展,大量的信息呈爆炸式增长,信息自动分类己经成为人们获取有用信息不可或缺的工具。文本分类是中文信息处理的一个重要的研究领域。其目标是在分析文本内容的基础上,给文本分配一个或多个比较合适的类别,从而提高文本检索等应用的处理效率。目前已经有许多方法应用到该领域,如支持向量机方法(SVM)、K近邻方法(KNN)、朴素贝叶斯方法(NaiveBayes)、决策树方法(DecisionTree)等等。 朴素贝叶斯分类以其坚实的数学基础和丰富的概率表达能力,尤其是它能充分利用先验信息的特性越来越受到人们的重视,是目前公认的一种简单有效的概率分类方法,在某些领域中表现出很好的性能。贝叶斯方法的一大优点是利用了先验信息,能够在不确定性的推理中提供一种模式和处理方法。朴素贝叶斯与其他分类法相比,具有更小的出错率、健壮性和效率。 但方法的数据稀疏的问题以及所采用的laplace平滑方法还存在一定的缺陷还不是最优。因此,我们提出用uni-gram的平滑方法来改进数据稀疏状况,通过对贝叶斯分类的平滑方法进行改进提高其分类效果。 本文利用了贝叶斯理论对文本进行了分类。主要完成了以下几个方面的任务:1.描述了文本分类系统的一般过程,包括文本信息的表示、提取,文本分类的方法,介绍了贝叶斯理论。 2.分析了朴素贝叶斯文本分类方法的特点及缺陷,并提出用一元统计语言模型的平滑技术对其数据稀疏问题引起的零概率进行改进的可行性。 3.用uni-gram模型的三种平滑方法即Jelinek-Mercer平滑方法、Dirichiet平滑方法、绝对折扣法对贝叶斯分类器进行改进,提出了具体的算法和实现框图,这是本文的核心内容。 4.通过实验分析确定平滑算法的参数取值,比较改进了的贝叶斯分类器与原来采用laplace平滑的分类器的性能,提高了分类准确率和召回率。 今后,应该用统计语言模型的二元、三元模型来更好的改善贝叶斯的分类效果。同时可以考虑将贝叶斯分类系统的特征提取方法中将tf.idf和MI两种标准结合以提高分类器性能。
其他文献
本文主要研究IPv6技术在用户程序中的应用,该课题的研究依托于贵州省高速公路开发总公司的高速公路智能交通监控管理系统(黔科办200304),作者在IPv4基础上开发了该系统,提出在该
越来越多的多媒体应用追求渲染效果的真实感,使用者对画面效果的要求也越来越高,真实世界的光照信息被用于虚拟场景渲染,来达到提高结果质量的目的。由于高精度的HDR环境光图
随着计算机技术、通讯技术的飞速发展和个人计算机的普及,Internet作为新一代的信息载体和交流平台,在人们的生活、工作中扮演越来越重要的角色,尤其是它所蕴涵的信息价值,越
可扩展标记语言(Extensible Markup Language)在基于Web的分布式应用系统中日益获得青睐,同时也对访问控制提出了新的挑战。在大型的企业级应用中,访问企业XML关键资源的用户
人们对问题求解规划器的研究已经持续了半个世纪之久,在众多规划器中备受瞩目的是Avrim Blum和Merrick Furst于1995年提出的经典图规划。图规划首次将规划图应用于规划器设计
随着网络的广泛应用,特别是政府信息、电子商务信息和军事数据在网络上的传输给网络安全提出了很高的要求。网络攻击方法层出不穷,入侵手段也不断更新,使得防火墙等被动式网络安
计算机的安全已经是一个十分普遍和严重的问题,传统的计算机安全技术及人工响应已不能满足复杂系统的安全性要求,入侵检测系统已成为网络计算机系统中一个有效的防范检测手段,其
媒体服务器(MediaServer)是下一代网络(NGN,NextGenerationNetwork)中的重要设备,也是分组网络中的重要设备。媒体服务器在软交换设备或应用服务器的控制下提供基本和增强业务
主机涉密信息的安全是信息网络安全的重要内容之一。本文主要研究设计并实现了基于Java的主机涉密信息监测控制系统,目的在于探讨防止主机涉密信息失、泄密的方法,以减少或杜
随着现代企业信息化进程的不断深入,对企业应用系统也提出了更高的要求,希望应用系统在提高企业内部信息共享能力的同时,能够增强对企业多变的外部需求的适应能力。面向服务