KNN文本分类中基于遗传算法的特征提取技术研究

来源 :中国石油大学(华东) | 被引量 : 0次 | 上传用户:jzg8888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类是数据挖掘中一个重要的研究领域,KNN文本分类算法是一种基于实例的、非参数的文本分类方法,是向量空间模型(VSM)下最好的文本分类方法之一。其主要步骤有:文本分词,特征提取(特征权重的计算和特征词的选择),表示特征模型的建立,训练分类器。其中处于文本分类系统核心地位的是特征提取,特征提取方法的好坏对文本分类的结果有重要影响。传统的特征提取方法是属于基于统计的方法,如文档频度(DF)、期望交叉熵(ECE)、几率比(OR)、信息增益(IG)、互信息(MI)、χ~2统计(CHI)、术语强度等。以上方法存在诸多不足:当类别和特征分布高度不平衡时,不能有效地处理低频词;对于单个特征的处理不当,导致局部最优解的产生等。此外,KNN分类算法中能否选取合适的K值会影响分类结果的质量,采取固定K值的方法有其自身的缺陷,它忽略了训练文本类别和文档数目对K值的影响,如果K值过大,在选择K个近邻的时候,分类结果易趋向于文本数目较多的类别,分类性能较差;而K值选择过小,得到的近邻数少,会降低分类精度,同时也放大了噪声数据的干扰。针对特征提取技术中的问题,本文提出基于遗传算法的特征提取算法,此方法将词条的χ~2统计值引入到特征向量中,χ~2统计值能标识词条与类别的关联度的大小,将此种向量作为遗传算法的初始种群进行启发式搜索能提高分类的准确率,与此同时,针对特征提取的性质,本文提出新的适应度函数和交叉规则。实验表明,基于遗传算法的特征提取算法能选择出准确表征文本类别的特征项。针对KNN分类算法采用固定K值的缺陷,本文提出一种动态获取K值的策略,实验表明,动态获取K值的KNN分类算法具有较高分类性能。本文将基于遗传算法的特征提取算法运用到动态获取K值的KNN分类算法中,在数据集上的实验结果表明了特征提取算法的改进与动态获取K值的结合能有效的取得高质量的分类结果。
其他文献
学位
运动目标的检测与分割一直都是计算视觉领域研究的热点问题,它是计算机视觉领域中运动目标跟踪、运动目标分类及运动目标行为理解的基础。运动目标的检测与分割有广泛的应用
数据挖掘是从海量数据中提取用户事先关心却未曾知悉的有价值信息。作为一个新兴的多学科交叉研究领域,数据挖掘的应用正在逐步深化,在各行各业的决策支持中也扮演着越来越重要
本文提出了一种基于多种群蚁群算法的多约束QoS路由模型。此方法不仅考虑到多种群蚁群算法能选择多条传输路径,而且还加入了多约束的QoS模型,在网络中传递数据时减少网络拥塞
嵌入式系统在人们的生活中随处可见,但由于嵌入式系统的特点,使得在嵌入式操作系统的裁剪或移植过程中面临着许多困难。本文主要研究了一种在仿真平台上对Linux内核运行进行
近年来,基于位置的社交网络(LBSNs)的蓬勃发展,特别是随着线下社交活动组织平台的建立,使得互联网上的陌生人可以在现实世界中相见。这种全新的商业模式为线下活动的组织者提
于1959年首次提出的车辆路径问题(VRP)是现代管理科学的一个重要研究课题,选取恰当的行车路线,可以加快对客户需求的响应速度,提高服务质量,增强客户对物流环节的满意度,降低
近年来,基于立体视觉的三维重建技术是计算机视觉中一个十分重要的领域。它之所以能成为热点问题,是因为它能快速地实现二维图像的三维重建而不依赖于昂贵的器材和专业的技术人
作为最流行的移动操作系统,Android平台上有大量功能丰富的应用程序。Android应用程序已经覆盖了人们生活的各个方面,给人们的生活带来了极大的便利。但是Android的流行使它
云计算给信息技术行业带来了一场新的革命。支撑云计算的关键技术包括虚拟化技术、分布式文件系统、并行计算技术和非关系型数据库技术等。Hadoop是一个集各种云计算技术于一