改进贝叶斯模型在中文文本分类系统中的应用

来源 :南开大学 | 被引量 : 0次 | 上传用户:fenglin1985z
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的迅猛发展,电子文本信息迅速膨胀,文本分类系统作为处理和组织电子文本信息的一项重要技术,成为信息处理领域不可或缺的工具。在我国信息化建设蓬勃发展的今天,开发适合中文的文本分类系统显得尤为重要。目前常用的文本分类算法有以下几种:贝叶斯、KNN、支持向量机、决策树、粗糙集、神经网络等,其中贝叶斯算法以其良好的准确性和较高的效率逐渐成为当前文本分类技术的主流。 本文在介绍常用文本分类算法的基础上,着重研究贝叶斯算法及其相关模型,详细介绍贝叶斯方法的二项式独立模型、多项式模型及混和模型,并通过实验比较三种模型的分类性能。 然而贝叶斯分类算法具有一个严重的缺陷——数据稀疏问题,即如果一些特征属性在训练语料的某个类中没有出现,则在分类阶段如果某待分类文档含有这些特征属性,那么不论别的特征属性的条件概率有多高,都会导致该文档属于这个类的条件概率为零。虽然上述三种贝叶斯模型针对这一问题都作了简单处理,但依然存在很多问题。为了解决现有贝叶斯算法中处理数据稀疏问题的缺陷,本文在讨论统计语言模型中N-gram平滑技术的基础上,考虑贝叶斯算法的独立假设特性,提出采用Unigram平滑技术的三种不同方法来改进贝叶斯分类器,分别为One-count平滑方法、Jelinek-Mercer 平滑方法以及Katz平滑方法。 最后,本文设计并实现了基于贝叶斯方法的中文文本分类系统,将三种平滑方法分别应用于系统中的二项式、多项式和混合贝叶斯模型中,并通过实验与原始贝叶斯分类器进行比较。实验表明,经过平滑后的分类系统具有较好的准确率、召回率及F1值。
其他文献
目前我国软件产业中大部分企业属于中小型企业,其软件过程能力还比较薄弱,然而对于如何改进,按照什么样的过程开展工作仍很茫然。因此急切需要一个适合我国中小软件企业情况
随着计算机技术的迅猛发展,学校教学和管理的信息化已逐步成为现代教育技术的重要研究课题。开发试卷生成管理系统既可以增强学校考试工作的规范性,提高试卷质量,又能减轻教
在已有的工艺技术条件下,设计出能实现特定的应用目的MEMS器件并最终实现产业化,这是所有MEMS研究的出发点以及最终的目的所在。MEMG的结构设计与优化对于缩短它的研制周期、降
计划与统计信息系统是企业管理信息系统的重要组成部分,对于辅助企业科学管理,提高企业的管理水平与竞争能力具有重要的实际意义。作者以企业实际需求为背景,展开了企业计划统计
随着网络技术的迅猛发展以及电子读物的大量涌现,历史进入了屏幕阅读时代。本文讨论了电子书阅读器发展的现状,分析了非类纸显示屏幕的优缺点。对现有的多种显示设备进行了分类
随着互联网和现代电子设备的飞速发展,互联网中图像的数量已经达到了海量的规模,这使得基于内容的图像检索成为国内外的研究热点之一。传统的图像检索中存在着低层视觉特征和高
RAID技术的普及使得自动化的存储管理和智能化的磁盘管理的实用性大大提高。RAID系统箱体管理分为两部分:一部分是SCSI机箱服务(SES),一部分是智能磁盘管理功能。SCSI机箱服
防火墙是设置在被保护内部网络和外部网络之间的一道屏障,可以为内部网络提供强有力的保护。为了很好地使用防火墙.需要根据不同的应用场景,给出或更新防火墙的安全策略,并在安全
无线传感器网络综合了传感器技术、嵌入式计算技术、分布式信息处理技术和无线通信技术,能够协作地完成实时监测、感知和采集监测对象的信息,并对其进行处理,传送到需要信息的用
图像在采集、获取以及传输的过程中,往往要受到噪声的污染,被噪声污染了的图像叫做含噪图像。噪声是影响图像质量的主要因素,极大影响了人们从图像中提取信息,因此,非常有必要在分