文本分类特征选择与分类算法的改进

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:andy1li
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类是数据挖掘中一个常见的研究热点方向,K-最近邻分类方法是一种用实例解决问题的分类方法,在向量空间模型下,是一种比较好的文本分类方法。其主要步骤有:文本预处理,特征选择(计算特征词的权重和选择特征词),表示文本的特征模型的建立,训练分类器,用分类器进行分类。其中特征选择是文本分类中最重要的,能否利用特征选择选出合适的特征词对分类的效果有重要影响。能否利用特征选择选出合适的特征词会直接影响分类的效率和效果。许多研究表明,互信息特征选择方法是很好的特征选择度量算法之一。任意两个随机变量的统计相关性可以用互信息是加以衡量。在文本分类中,互信息特征选择存在以下三点不足:(l)只考虑了特征词出现的文档频率,即特征词在几篇文档中出现过,而没有考虑特征词在文本中出现的频度,即特征词出现了多少次。(2)互信息方法没有考虑特征词之间的统计关联性,只考虑了特征词与类别之间的统计关联性。(3)文本训练集中各个类别中的文本数量会影响对计算特征词互信息,但这点没有想办法解决。如上所述互信息方法的缺点,针对以上不足,本文通过引入最小特征冗余度量法,加入特征类频度和特征类内分散度两个参数,同时在计算特征词文档频时设置其在文本中需要出现的最小词频,提出了一种基于特征词词频的互信息特征选择方法。此外,K-最近邻分类算法中如何确定合适的K值以达到最佳分类效果,采取预先确定固定的K值的算法有着明显的缺陷,它没考虑到训练文本集合各个类别的文档数目对K值选取会产生影响,如果K值选择太大,在选择K个近邻的时候,容易使分类结果趋向于含有文档数较多的类别,分类效果不好;而如果K值选择太小,得到的相近文档数太少,会使分类精度降低,而且会放大噪声数据的干扰作用。针对K-最近邻分类算法采用固定K值的缺陷,本文提出一种动态获取K值的策略,实验表明,动态获取K值的K-最近邻分类算法具有较高分类性能。本文将基于文本词频的互信息特征选择算法运用到动态获取K值的K-最近邻分类算法中,在数据集上的实验结果表明了特征提取算法的改进与动态获取K值的结合能有效的取得高质量的分类结果。
其他文献
在布料模拟中,为了达到较高的真实感,一般采用物理模拟的方法,虽然物理模拟方法可以得到高精度的结果,但通常需要花费较高的计算代价,因此效率和精度的权衡是需要关心的最重
近些年来,随着显卡技术的高速发展以及性价比的提升,将GPU用于通用计算逐渐成为国内外研究的热点。早期的GPGPU开发使用GPU的图形学接口,开发难度大、成本高。NVIDIA公司推出
敦煌飞天艺术有着深厚的文化内涵和强烈的艺术感染力。但是目前在飞天动画的制作方面存在流程复杂,制作耗时,技术要求高等问题。而且在动画制作过程中也缺乏对飞天飘带运动模
伴随着数字多媒体技术和设备的快速普及,使得人们获取和制作视频的方式更加容易,同时这些视频数据可以很容易的被人们通过视频编辑软件进行任意修改,使得互联网中充斥着各种
嵌入式系统开发、生产过程中涉及到的一个很重要的问题就是“镜像文件烧写”,镜像文件的烧写方案直接关系到嵌入式设备的开发、生产效率。目前国内很多嵌入式设备厂商的生产
情感分析是对文本中的观点、情感和主观性的计算处理过程。基于特征的用户评论情感分析是情感分析领域近几年出现的一个研究热点,它主要面向产品的用户评论,进行产品特征提取
近年来,网络海量科技文献知识库为科技工作者提供便捷的文献检索和学习研究服务,同时大量的作者同名现象降低了检索的准确性,因此作者消歧是该类知识库亟待解决的一个问题。
运动目标检测是计算机视觉领域的一个研究热点运动目标检测是将视频画面中的前景目标提取出来,得到前景目标的相关信息,是目标跟踪和识别安全监控等视频处理的基础,检测结果直接
蛋白质是构成生物体的重要物质基础,生命现象主要是通过蛋白质的结构和功能来实现的。掌握蛋白质的各种属性对于理解蛋白质功能,了解生物体内各种生化反应、基因表达,以及具有针
Ad Hoc网络是一种由许多带有无线收发装置的移动主机组成的多跳自治系统,它不需要预先布设网络基础设施就能快速组网。近年来随着无线通讯技术的发展和个人便携设备的普及,人