改进贝叶斯模型在中文文本分类系统中的应用

来源 :南开大学 | 被引量 : 0次 | 上传用户：fenglin1985z

【摘要】

：

随着Internet的迅猛发展，电子文本信息迅速膨胀，文本分类系统作为处理和组织电子文本信息的一项重要技术，成为信息处理领域不可或缺的工具。在我国信息化建设蓬勃发展的今天，开发

【作者】

：

杨洁

【机构】

：

南开大学

【出处】

：

南开大学

【发表日期】

：

2004年期

【关键词】

：

中文文本分类贝叶斯模型数据稀疏统计语言模型 Unigram 信息处理

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着Internet的迅猛发展，电子文本信息迅速膨胀，文本分类系统作为处理和组织电子文本信息的一项重要技术，成为信息处理领域不可或缺的工具。在我国信息化建设蓬勃发展的今天，开发适合中文的文本分类系统显得尤为重要。目前常用的文本分类算法有以下几种：贝叶斯、KNN、支持向量机、决策树、粗糙集、神经网络等，其中贝叶斯算法以其良好的准确性和较高的效率逐渐成为当前文本分类技术的主流。本文在介绍常用文本分类算法的基础上，着重研究贝叶斯算法及其相关模型，详细介绍贝叶斯方法的二项式独立模型、多项式模型及混和模型，并通过实验比较三种模型的分类性能。然而贝叶斯分类算法具有一个严重的缺陷——数据稀疏问题，即如果一些特征属性在训练语料的某个类中没有出现，则在分类阶段如果某待分类文档含有这些特征属性，那么不论别的特征属性的条件概率有多高，都会导致该文档属于这个类的条件概率为零。虽然上述三种贝叶斯模型针对这一问题都作了简单处理，但依然存在很多问题。为了解决现有贝叶斯算法中处理数据稀疏问题的缺陷，本文在讨论统计语言模型中N-gram平滑技术的基础上，考虑贝叶斯算法的独立假设特性，提出采用Unigram平滑技术的三种不同方法来改进贝叶斯分类器，分别为One-count平滑方法、Jelinek-Mercer 平滑方法以及Katz平滑方法。最后，本文设计并实现了基于贝叶斯方法的中文文本分类系统，将三种平滑方法分别应用于系统中的二项式、多项式和混合贝叶斯模型中，并通过实验与原始贝叶斯分类器进行比较。实验表明，经过平滑后的分类系统具有较好的准确率、召回率及F1值。

其他文献

中小软件企业过程改进及支持工具研究

目前我国软件产业中大部分企业属于中小型企业,其软件过程能力还比较薄弱,然而对于如何改进,按照什么样的过程开展工作仍很茫然。因此急切需要一个适合我国中小软件企业情况

学位

中小软件企业过程改进生命周期支持工具

试卷生成管理系统的设计与实现

随着计算机技术的迅猛发展,学校教学和管理的信息化已逐步成为现代教育技术的重要研究课题。开发试卷生成管理系统既可以增强学校考试工作的规范性,提高试卷质量,又能减轻教

学位

试卷生成组卷算法管理系统数据库

MEMS器件设计与优化

在已有的工艺技术条件下，设计出能实现特定的应用目的MEMS器件并最终实现产业化，这是所有MEMS研究的出发点以及最终的目的所在。MEMG的结构设计与优化对于缩短它的研制周期、降

学位

微加速度传感器静电梳齿微夹钳有限元分析优化设计微加速度计

企业计划与统计信息系统研究开发

计划与统计信息系统是企业管理信息系统的重要组成部分，对于辅助企业科学管理，提高企业的管理水平与竞争能力具有重要的实际意义。作者以企业实际需求为背景，展开了企业计划统计

学位

计划与统计审批工作流B/S.NETXMLWEB信息系统

片上多核版面加速系统架构研究

随着网络技术的迅猛发展以及电子读物的大量涌现，历史进入了屏幕阅读时代。本文讨论了电子书阅读器发展的现状，分析了非类纸显示屏幕的优缺点。对现有的多种显示设备进行了分类

学位

版面加速屏幕印刷电子读物屏幕阅读

基于多特征和相关反馈的图像检索技术研究

随着互联网和现代电子设备的飞速发展，互联网中图像的数量已经达到了海量的规模，这使得基于内容的图像检索成为国内外的研究热点之一。传统的图像检索中存在着低层视觉特征和高

学位

基于内容的图像检索SIFT特征视觉单词模型相关反馈

RAID系统箱体管理的设计与实现

RAID技术的普及使得自动化的存储管理和智能化的磁盘管理的实用性大大提高。RAID系统箱体管理分为两部分:一部分是SCSI机箱服务(SES),一部分是智能磁盘管理功能。SCSI机箱服

学位

机箱服务磁盘智能管理板级支持包

状态检测防火墙的一致性测试研究

防火墙是设置在被保护内部网络和外部网络之间的一道屏障，可以为内部网络提供强有力的保护。为了很好地使用防火墙．需要根据不同的应用场景，给出或更新防火墙的安全策略，并在安全

学位

状态检测防火墙一致性测试动态配置网络安全

无线传感器网络非均匀分簇算法研究

无线传感器网络综合了传感器技术、嵌入式计算技术、分布式信息处理技术和无线通信技术，能够协作地完成实时监测、感知和采集监测对象的信息，并对其进行处理，传送到需要信息的用

学位

无线传感器网络非均匀分簇能量有效性多跳传输

小波分析及遗传算法在图像去噪中的应用研究

图像在采集、获取以及传输的过程中，往往要受到噪声的污染，被噪声污染了的图像叫做含噪图像。噪声是影响图像质量的主要因素，极大影响了人们从图像中提取信息，因此，非常有必要在分

学位

小波分析图像去噪遗传算法小波收缩多尺度阀值去噪

改进贝叶斯模型在中文文本分类系统中的应用

其他学术论文