论文部分内容阅读
近年来,网上电子文档的数量以指数级的速度增长,这使得文本分类在信息检索、信息过滤以及信息管理等应用中变得越来越重要。向量空间模型是常用的文本表示方法之一,但这种方法存在空间维数过大和缺乏语义解释的缺点。为了解决上述问题,本文结合潜在语义索引的思想,将非负矩阵分解应用于中文文本分类中。非负矩阵分解是一种崭新的特征抽取方法。由于对分解结果加入非负限制,基于非负矩阵分解抽取的特征向量更能反映样本的局部特征,因而更接近人们的认知习惯,并具有很高的可解释性和预测性。本文重点介绍了非负矩阵分解的基本思想和基本算法。然后,从理论上将非负矩阵分解算法与当下较为经典的奇异值分解方法进行比较。在理论分析基础上,本文分别应用非负矩阵分解算法和奇异值分解算法分解词一文本矩阵,获取词语之间的相关性,有效地解决了向量空间模型中同义词和多义词的影响。实验表明,与基于奇异值分解的潜在语义索引方法相比,该方法具有计算速度快、占用存储空间较少的优点。并且,在潜在语义数目降低较大的情况下,非负矩阵分解方法具有更好的分类精度。