文本分类中的特征降维方法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:gaoxuan1234
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的普及和高速发展,使得网络上的电子文档迅速增加,但是给用户带来大量信息的同时,使得用户查找、过滤和管理这些海量信息非常困难。因此,文本分类技术的研究引起了人们的持续关注。   文本分类大致分为5个流程:文本预处理、特征降维、特征加权、分类器训练和分类器性能评估。一个文本集在文本预处理中经过分词、去除停用词后,得到了文本集的原始特征词集合,之后进行特征降维,选出对文本类别区分能力较强的特征词,继而利用特征加权公式计算降维之后各个特征词的权重,根据向量空间模型(VSM)将文本表示成由一定数量特征词构成的空间向量,然后进行分类器训练得到分类器,最后利用相关的指标对分类器性能进行评估。   其中,特征降维在文本分类过程中具有非常重要的作用,利用好的特征降维方法来降低向量空间的维数,不仅能提高分类器的速度,节省存储空间,还能过滤掉一些无关属性,从而减少无关信息对文本分类的干扰,提高文本分类的精度。根据产生新特征词方式的不同,特征降维可分为特征选择和特征抽取。常用的特征选择方法有:文档频率(DF)、互信息(MI)、信息增益(IG)、X2统计量(CHI)、文本证据权(WET)、优势率(OR)和多种方法的组合等。这些特征选择方法的基本思想是使用某种评估函数对每个特征词打分,然后把特征词按照分值从高到低排序,取分值排前的一些特征词组成降维后的特征集合。   本文详细分析了常用的特征选择方法,发现这些方法要么没有考虑词频,在一定程度上倾向于选择稀有特征词,要么没有考虑特征词与类别的关系。针对这些方法的不足本文提出了一种新的特征选择方法,该方法结合了文本类间集中度、文本类内分散度和词频类间集中度来计算特征词在每个类别的评估函数值,并利用其最大值与次大值之差作为特征词的最终评价函数值。   本实验将文档频、互信息、信息增益和X2统计量与提出的方法进行比较,然后用查全率、查准率和F1值来评价分类的效果。新的特征选择方法不仅考虑了词频、特征词与类别的关系,而且计算复杂度更小,因此,特征降维效果更优。同时由于MI和X2统计量在求取全局评估函数值也可以采用最大值与次大值之差的形式,因此在实验中验证了这种全局评估函数在MI和X2统计量中的有效性。
其他文献
软件系统的开发是一个包含可行性分析、需求分析、编码、执行、测试、运行维护等多个阶段的复杂过程。特别是开发分布式的、具有并行性、时间性、不确定性等特点的系统更具有
随着计算机在数据采集和数据存储方面的技术迅猛发展,机器学习应用经常碰到越来越大的数据集。大部分机器学习算法的时间、空间复杂度也随着数据集的规模变得越来越高。如何
非线性时间序列广泛存在于工程问题及科学研究中,准确的预测结果可以为科学决策提供理论及实际支持。近年来,递归神经网络成为时间序列预测领域的主要研究方向之一,但是传统递归
历史太阳观测数据是进行长周期太阳活动研究不可多得的资料,完善和丰富历史观测资料的相关信息是开展相关研究工作的先决条件。本文以美国国立太阳天文台(NSO)历史H?观测资料扫
随着互联网的发展,网络上视频的数量呈爆炸式增长。分析发现在主流的视频分享网站中存在巨大数量的内容冗余的视频。用户在搜索视频时会返回大量的重复结果,从而导致了用户体
近年来,社会网络对人的影响因网络技术和通信技术的飞速发展而加深。与之对应,一类新的具有社会化特征的恶意Agent也因新的技术而层出不穷。譬如,网络空间的分布式拒绝服务式攻
随着当今社会科技的飞速发展,无线传感器网络已经融入到人类日常生活和社会活动的各个领域。定位技术对无线传感器网络有着至关重要的作用,有了节点的位置信息后,可以开发出许多
最近几十年来,随着虚拟现实、影视动画和计算机游戏等领域的不断发展,柔性物体的计算机仿真逐渐成为计算机图形学领域研究的热点之一。如何健壮、快速和准确地模拟物体之间的
随着物联网技术的兴起,物与物之间的交互变得十分重要,要求设备也要像人类那样具备情境感知的能力。情境感知计算简单说就是通过传感器及其相关技术使计算机或设备能够“感知
随着网络和信息技术的发展,很多的企业和部门已经积累了大量、使用不同数据库管理系统、以不同形式存储的数据。当前,在解决异构数据集成的问题上主要有联邦数据库、数据仓库、