文本分类中特征选择和特征加权算法的研究

来源 :北京邮电大学 | 被引量 : 21次 | 上传用户:wankunbaobao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的高速发展,人们可获取的数据量不断增大,大部分的数据是文本格式的数据,如何快速、准确、全面的从大量的数据中寻找到所需要的信息内容,已经成为了一项十分有意义的课题。文本分类可以对这些大量的文本数据进行组织和处理,目前在很多领域已经得到了广泛的应用。文本分类是一个复杂的系统工程,本文在分析和总结文本分类中文本表示模型、文本预处理、特征选择、特征加权、分类方法和分类性能评估的基础上,对特征选择和特征加权进行了深入研究。主要完成了以下工作:1.特征选择是文本分类过程中的一个重要环节,它不仅可以提高分类器的速度,节省存储空间,还能过滤一些无关特征,减少无关特征对文本分类的干扰。本文对目前常用的特征选择算法进行了详细的研究,通过比较得出了这些算法的优缺点。重点分析了其中的期望交叉熵算法,针对它的不足,并结合特征词的类间集中度、类内分散度,提出了一种基于类间集中度和类内分散度的期望交叉熵算法,将特征项在类间和类内分布的均匀程度有机地结合在一起,并通过实验证明,改进后的期望交叉熵算法有效提高了分类的准确性。2.特征加权可以对文本特征集合中的每个特征赋予不同的权重,类别区分能力较强的特征词的权重就较高,类比区分能力较弱的特征词的权重就较低。本文研究了经典的特征加权算法TF-IDF,并基于类间集中度和类内分散度对传统TF-IDF算法进行了改进,通过实验证明,改进后的TF-IDF算法有效提高了分类的准确性。3.设计并实现了中文文本分类实验平台,设计了三组实验对本文提出的基于类间集中度和类内分散度的期望交叉熵算法和改进后的TF-IDF-CD算法的有效性进行对比验证。实验结果表明基于类间集中度和类内分散度的期望交叉熵算法和TF-IDF-CD算法的分类效果比传统的期望交叉熵算法和TF-IDF算法更加优秀。
其他文献
操作系统是计算机重要的系统软件,它负责控制和管理着计算机所有的软、硬件资源.由于操作系统的重要地位,使攻击者常常以操作系统为主要攻击目标,因此研究保护操作系统的方法
目前文件系统的安全性检测已成为入侵检测系统的重要组成部分,而对文件系统的性能监控也产生很多研究成果。虽然它们同为文件系统监控的重要组成部分,但长期以来各自为阵,缺乏一
智慧环保工程中存在着海量数据,这些数据来源于多个业务信息系统,造成了数据具有多源异构的特征,难以利用数据挖掘方法从中挖掘出有意义的信息。针对该问题,本文提出了基于Hierar
网络监听是指将网络上传输的数据捕获并进行分析的行为,它包括数据捕获和协议还原两大部分,目的在于提供给网络管理员(Manager)对局域网流量检测和分析,发现网络故障,记录通
监控系统的软件集成有着广泛的实际应用需求,如在智能建筑、工业生产过程控制、智能交通等领域。本论文试图在如何将Web服务用于监控系统软件集成方面进行一些探讨,以期实现以
该文首先介绍了并行中间件系统的整体结构和工作原理.然后研究了语义缓存的基本思想,缓存的内容和组织.提出了该文的缓存项合并策略,在此基础上设计并实现了缓存中的查询处理
软件测试是软件质量保证的重要手段.随着互联网技术的普及,软件产品已从传统的单机环境迁移到复杂多变的网络环境.因此,研究如何对网络应用软件进行测试是一个重要课题.传统
易碎水印技术作为验证多媒体的完整性和真实性的有效工具,近年来,已经引起了人们极大的关注.该文系统地分析了数字水印技术的基本原理和方法及其相关领域技术,提出了两种易碎
该文结合交通信号控制工程实践,对此进行了深入的分析和研究,并实现了一个分布式实时自适应交通信号控制系统,取得预期的应用效果.(1)系统结构的研究:该文分别从控制结构、设
车辆牌照识别系统是一个基于图像处理、人工智能、模式识别等技术的高度智能的自动化系统.它可以广泛地应用在公路和桥梁自动收费管理系统,公路流量观测系统,城市车辆安全监