面向不均衡数据的文本分类系统研究与实现

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:ben74
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机网络技术的飞速发展,网络中各种电子形式的文本以指数级的速度增长,然而不同主题类别之间文档数量往往会出现指数级的差异。面对数据不均衡问题,传统文本分类往往会出现类别倾向性的问题,然而用户往往对少数类的分类效果关注度更高。特征选择作为文本分类的重要环节,如何在不均衡数据集下选择高类别价值的特征项,从而保证分类效果的前提下,提高少数类别的分类精度,是当前研究的难点和热点。  面对文本分类中数据集不均衡问题,本文主要对特征选择进行了一定的研究,特别是分析了卡方统计算法的不足,并在卡方统计算法的基础上提出了一种面向不均衡数据的概率方差 CHI特征选择算法。改进的内容如下:  1)引入频繁因子。高类别价值的特征项应该是经常出现的,由于卡方统计算法只考虑了文档频信息,忽略了词频信息,存在低频词倾向的问题。本文以词频概率度量特征项在不均衡数据集下的频繁程度,克服了低频词倾向和类别文档差异的问题。  2)引入类间集中因子。一个高类别价值的特征项应该集中出现在指定类中,然而卡方统计忽略了特征项在类间的分布信息。本文以文档概率为基础,计算类间文档样本方差,度量特征项在不均衡数据集下的类间集中程度,克服了类间分布信息缺失和类别文档差异的问题。  3)引入类内均匀因子。一个高类别价值的特征项应该均匀的分布在指定类各个文档中,然而卡方统计忽略了特征项的类内分布信息。本文以词频为基础,计算类内特征项样本方差,度量特征项在类内的均匀程度,克服了类内分布信息缺失的问题。  本文文本分类系统中选用SVM分类器,以一对一方法解决多分类问题。最后对复旦大学整理的语料库作为平衡和不平衡数据集下的两组实验数据,并对比分析卡方统计算法和本文改进算法在两组实验数据下的有效性。实验结果表明,基于概率方差CHI特征选择算法在均衡和不均衡数据集下表现效果更好,特别是不均衡数据集下,提高了稀有类别的分类效果。
其他文献
视频图像序列中的运动物体的检测和追踪是计算机视觉领域的重要研究课题之一。在譬如安全监控、交通监控、增强现实等越来越多的应用中,视频图像中的运动物体检测和追踪都起
本文旨在系统性剖析角色协同(Role-Based Collaboration,RBC)的主要元素所存在的最基本的关联性和层次结构,通过运用子结构逻辑对RBC中的角色扮演过程进行高度抽象化,以促进角色
果实病害是果实生长过程中的常见现象,严重影响着水果的商品价值。若能在计算机上以三维可视化的方式虚拟果实病害的发病过程,可望以虚拟方式部分地替代费时、费力、昂贵的试验
随着经济的快速发展,我国大规模基础设施的建设方兴未艾,许多举世瞩目的重大基础设施在我国建成或正在修建。运用结构健康监测技术对基础设施结构性能参数进行实时监测,及时
可计算性(computability),即算法有解性,是数学和计算机科学领域中最重要的概念之一。可计算性逻辑(Computability Logic,简写为CoL)是研究可计算性的形式理论,它将问题看作
随着大数据、云计算技术的不断发展,传统网络架构已经越来越难以满足当前的网络应用和服务的需求了,因而产生了软件定义网络这一新型网络架构,该架构的主要特征是转发与控制分离
随着网络的日益普及,我们已经进入到网络时代,网络成为了数据传输和信息交换的主要媒介。网络打印机以其快捷的网络接入方式和方便的操作控制,赢得了越来越多的用户青睐。但是,由
伴随着我国社会主义经济制度的不断完善,我国的中小微企业得到飞速的发展。中小微企业不光在数量和规模上在我国企业占据绝对的优势,并且在我国就业、GDP、税收等方面扮演着越
人身健康和财产安全始终是人们日常生活关注的主题。随着科学技术的不断进步,现代化、智能化的家居安防平台系统应运而生,为人们的家居安全提供可靠的保证。本文在通过认真分析
动态规划是一种将复杂问题分解成若干个子问题进行计算的问题解决方案,在科学计算中有着广泛的应用。然而随着计算中数据量的增大,解决问题的时间代价已经不能满足人们的需求。