论文部分内容阅读
用向量表示文本是目前信息检索中最常用的方法,但在向量模型中,特征空间的维数通常高达数万维,如此高维的特征向量的处理具有极高的计算复杂度,而且会产生所谓的“维数灾难问题”,这就要求我们对高维数据进行降维,而合理的降维技术也正是文本自动分类的研究难点。 现有的文本自动分类中的降维方法大多是建立在数据总体服从正态分布这个假定基础之上的,而文本特征数据并不满足正态分布假定,需要用稳健的或非参数的方法来解决这个问题。投影寻踪是用来分析和处理高维观测数据,尤其是非正态、非线性高维数据的一种新兴统计方法。由于投影寻踪回归算法(PPR)本身不对观测数据做正态分布等假定,所以该方法能最充分地利用高维观测数据中的所有信息,特别是可以利用常规方法无法利用的非正态信息和复杂的非线性信息。因此,本文提出了基于投影寻踪回归的文本自动分类算法,通过投影寻踪回归算法,可以真实地描述高维数据的客观内在规律,从而达到降低特征维数,提高文本分类的精度的目的。 基于投影寻踪回归的文本分类方法的思想是:将文本表示为向量形式,然后将此高维数据投影到低维子空间上,并寻找出最能反映原高维数据的结构和特征的投影方向,然后将文本投影到这些方向,并用岭函数进行拟合,通过反复选取最优投影方向,增加岭函数有限项个数的方法使高维数据降低维数,最后采用普通的文本分类算法进行分类。 我们采用标准文档集:Reuters-21578进行了分类实验,并同时在相同的预处理条件下,与目前常用的方法进行了对比实验,实验结果表明,该模型对文本自动分类具有较高的召回率和准确率,该方法是一个可行而有效的文本分类方法。 本文的主要创新特点如下: 1.将投影寻踪回归方法应用于文本自动分类,通过投影指标来确定投影方向,反复将文本向量投影到一维空间,然后用岭函数进行拟合,进行高维数据的降维,最后进行文本的自动分类。 2.采用Hermite正交多项式拟合岭函数,大大降低计算复杂度。