基于NMF的中文文本分类方法

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户：zhanggh20060363

【摘要】

：

近年来,网上电子文档的数量以指数级的速度增长,这使得文本分类在信息检索、信息过滤以及信息管理等应用中变得越来越重要。向量空间模型是常用的文本表示方法之一,但这种方

【作者】

：

冯晓森

【机构】

：

哈尔滨工程大学

【出处】

：

哈尔滨工程大学

【发表日期】

：

2009年期

【关键词】

：

文本分类非负矩阵分解奇异值分解

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来,网上电子文档的数量以指数级的速度增长,这使得文本分类在信息检索、信息过滤以及信息管理等应用中变得越来越重要。向量空间模型是常用的文本表示方法之一,但这种方法存在空间维数过大和缺乏语义解释的缺点。为了解决上述问题,本文结合潜在语义索引的思想,将非负矩阵分解应用于中文文本分类中。非负矩阵分解是一种崭新的特征抽取方法。由于对分解结果加入非负限制,基于非负矩阵分解抽取的特征向量更能反映样本的局部特征,因而更接近人们的认知习惯,并具有很高的可解释性和预测性。本文重点介绍了非负矩阵分解的基本思想和基本算法。然后,从理论上将非负矩阵分解算法与当下较为经典的奇异值分解方法进行比较。在理论分析基础上,本文分别应用非负矩阵分解算法和奇异值分解算法分解词一文本矩阵,获取词语之间的相关性,有效地解决了向量空间模型中同义词和多义词的影响。实验表明,与基于奇异值分解的潜在语义索引方法相比,该方法具有计算速度快、占用存储空间较少的优点。并且,在潜在语义数目降低较大的情况下,非负矩阵分解方法具有更好的分类精度。

其他文献

关于水利工程渠道测量的探讨

期刊

浅议工程测量方面的问题分析

测量学是从人类生产实践中发展起来的一门历史悠久的科学，是人类与大自然作斗争的一种手段，实际都是工程测量的作用，将详细阐述工程测量学在工程建设施工中及运营阶段中的重要性

期刊

工程测量学定位放线变形观测限差

建筑工程项目质量控制对策探讨

期刊

基于多示例多标记学习的自然场景图像分类

近年来,互联网的飞速发展和数码相机、电脑及智能手机等工具的普及使用,导致图像信息爆炸式增长,如何对这些图像进行分类也便成为了一个亟待解决的问题。像自然场景这样较复

学位