基于NMF的中文文本分类方法

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:zhanggh20060363
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,网上电子文档的数量以指数级的速度增长,这使得文本分类在信息检索、信息过滤以及信息管理等应用中变得越来越重要。向量空间模型是常用的文本表示方法之一,但这种方法存在空间维数过大和缺乏语义解释的缺点。为了解决上述问题,本文结合潜在语义索引的思想,将非负矩阵分解应用于中文文本分类中。非负矩阵分解是一种崭新的特征抽取方法。由于对分解结果加入非负限制,基于非负矩阵分解抽取的特征向量更能反映样本的局部特征,因而更接近人们的认知习惯,并具有很高的可解释性和预测性。本文重点介绍了非负矩阵分解的基本思想和基本算法。然后,从理论上将非负矩阵分解算法与当下较为经典的奇异值分解方法进行比较。在理论分析基础上,本文分别应用非负矩阵分解算法和奇异值分解算法分解词一文本矩阵,获取词语之间的相关性,有效地解决了向量空间模型中同义词和多义词的影响。实验表明,与基于奇异值分解的潜在语义索引方法相比,该方法具有计算速度快、占用存储空间较少的优点。并且,在潜在语义数目降低较大的情况下,非负矩阵分解方法具有更好的分类精度。
其他文献
期刊
测量学是从人类生产实践中发展起来的一门历史悠久的科学,是人类与大自然作斗争的一种手段,实际都是工程测量的作用,将详细阐述工程测量学在工程建设施工中及运营阶段中的重要性
期刊
近年来,互联网的飞速发展和数码相机、电脑及智能手机等工具的普及使用,导致图像信息爆炸式增长,如何对这些图像进行分类也便成为了一个亟待解决的问题。像自然场景这样较复
医学影像归档与通信系统PACS系统是医院信息系统的主要组成部分。近几年,随着计算机技术的发展、互联网应用的推广,PACS系统在医疗信息化建设中开始面对更大的需求。在解决区
期刊
期刊
随着未来蜂窝移动通信系统的结构越来越复杂和用户需求的业务越来越丰富,无线资源管理在系统中的重要性也逐渐提升。接入控制技术作为无线资源管理首先需要解决的环节,可以维持
期刊
光突发交换技术是近年来光交换技术研究领域的热点。由于光突发交换结合了光路交换与光分组交换的优点,同时也避免了它们的不足,有望成为下一代光网络的核心交换技术。 本文