基于最近邻子空间搜索的文本分类算法

来源 :北京工业大学 | 被引量 : 10次 | 上传用户:ding7881
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类是一个监督学习的过程,指使用计算机按照一定的标准对文本集自动赋予标记,涉及到机器学习、数据挖掘等领域的许多技术,主要包括文本表示、特征选择、分类模型和评价方法等。目前,比较常用的文本分类器有朴素贝叶斯(Naive Bayes)、支持向量机(SVM)、K最近邻(KNN)等。最近邻方法是KNN的一个特例,基本思想是在训练集中找到测试样本的最近邻样本,然后根据此最近邻样本的类别做出决策。但最近邻方法只根据距离最近原则进行分类,分类精度易受噪声数据的干扰。而且,如果训练集文本数量较大,对新样本分类就需要较大的计算开销,从而导致分类过程较慢。本文在对传统的最近邻算法研究的基础上,进一步研究基于最近邻子空间搜索的文本分类算法,主要包括以下三个方面:1)对不同特征提取以及特征项赋权方法的研究。本文介绍了常用特征提取方法,并尝试了联合特征提取方法,即将文本频率特征提取(DF)与卡方校验特征提取方法(CHI)结合,综合利用了DF和CHI的优点,从而选取更优的特征词,从而得到更好的分类效果。同时,在使用联合特征提取时,针对DF值范围对分类效果的影响,我们也进行了对比实验。此外,对于两类文本分类问题,我们使用了一种新颖、稳定的特征项赋权方法——词频相关频率积,使用这种特征项赋权方法对分类效果有了明显的提高。2)最近邻子空间搜索模型的研究。最近邻子空间搜索是一种新近提出的模式分析方法,它的基本思想是选择一组向量构成的子空间来表示同类或相关数据的重要信息,再把这组向量映射成高维空间中的点,最后再通过高维空间中的最近邻方法解决所涉及的问题。在应用最近邻子空间搜索模型的过程中,有两个关键的问题需要关注:一是如何将文本信息表示成子空间的形式;二是如何将最近邻子空间搜索问题转化为最近邻搜索问题。针对问题一,我们使用向量空间模型表示文本空间,即使用一个向量表示一个文本,进而使用一个矩阵表示一类文本,对表示某一类文本的矩阵进行奇异值分解,可得到它的特征矩阵,即这类文本的特征子空间。针对问题二,我们定义了一组映射函数,分别将子空间和查询集映射成高维空间中点,从而在高维空间中进行最近邻搜索。3)将最近邻子空间搜索算法应用于文本分类的研究。由于实验数据量较大,考虑到在分类过程中需要占用大量的内存,特征提取之后的文本维度相对于分类过程的内存来讲仍然较大,所以在利用最近邻子空间搜索算法分类之前,先对样本的特征空间进行主成分分析降维。通过实验对比了基于传统的最近邻搜索的文本分类和基于最近邻子空间搜索的文本分类方法,在Reuters-21578数据集上的实验表明,该方法能够有效提高文本分类的性能,具有较高的准确率、召回率和F1值。
其他文献
Web服务是松散耦合的,可复用的软件模块,是一种在XML基础上发展起来的分布式计算技术,是一种新的网络服务,其目的是为在Internet上不同操作系统,硬件平台和编程语言间集成应用软件
图档管理是工程设计单位的一项重要任务。面对大量的图档资料、繁重的设计任务,如果缺乏有效的管理方法,工程往往不能按期完成。这里的图档管理不仅包括静态的、档案意义上的管
在软件生命周期中,软件产品总是不断地进行演化,以更正错误、适应环境、增加新的功能或者改进效率.软件变化是软件演化过程中的重要活动,然而,针对软件系统的一个局部变化往
本课题是适应电力企业管理模式向商业化运行管理方式的转换这一方向而提出的,是结合了计算机技术、网络通信技术及单片机技术的一个综合性课题.本课题对新的电能计量管理方法
Internet的迅速发展带来巨大方便的同时也导致了越来越多的入侵行为的发生.其中以DDoS攻击和蠕虫为代表的大量消耗网络带宽的异常行为危害越来越大.因此,基于网络流量的异常
该文系统介绍了演化硬件的基本原理和实现方法,并在研究实例的基础上对演化硬件的实现技术进行了研究.演化硬件就是能够通过与环境的相互作用,自动的动态改变其结构和行为的
随着Internet技术的飞速发展,个人通信技术的人性化设计要求人们可以随时随地访问网络,移动IP技术恰好满足了人们的这一愿望。进入二十一世纪,IPv4地址空间不足的问题逐渐暴露出
文字自动刺绣是刺绣辅助系统中一个重要的功能,日常使用非常频繁。TrueType类型的字体是计算机中使用最为广泛的字体类型,因而采用TrueType字体轮廓作为刺绣的轮廓成为文字自动
当前的企业级应用决不可能是(大多数不仅仅体现为)一个个的独立系统。在企业中,一般都会部署多个彼此连接的、相互通过不同集成层次进行交互的企业级应用,同时这些应用又都有可
Web应用本身的便利性,使得越来越多的政府机构和公司开始将传统的Client/Server应用程序转向基于Browser/Server的Web应用.而由于Web应用本身的开放性和其体系结构缺乏安全考