基于潜在语义分析的文本分类方法研究

来源 :武汉大学 | 被引量 : 0次 | 上传用户:cxcqjf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,人们既感到信息资源十分丰富,又感觉想找到所需的信息相对较难.原因之一是现有的信息系统还没有能够对信息资源进行有效的组织管理,内容管理是解决此问题的重要途径之一,而文本分类则是所有基于内容的文本信息管理的基础.文本分类是指按照预先定义的主题类别,对文档集合中的每个文档进行归类.这样,用户不但能够方便地浏览文档,而且可以通过限制搜索范围来使文档的查找更为容易.利用文本分类技术可以对大量文档进行快速、有效地自动分类,它在语料库处理、新闻分类、搜索引擎以及信息检索等信息管理任务中起着核心的作用.该文详细阐述了潜在语义分析的基本原理和局部特征空间的提取问题,提出了基于潜在语义和局部特征空间的文本分类方法,并将它应用于中文文本分类中.潜在语义分析LSA(Latent Semantic Analysis)是一种用于自动地实现知识提取和表示的理论和方法,它通过对大量的文本集进行统计分析,从中提取出词语的上下文使用含义.在技术上,它同向量空间模型类似,都是采用空间向量表示文本,但通过奇异值分解SVD(Singular-Value Decomposition)等处理,消除了同义词、多义词的影响.现有的基于潜在语义分析的文本分类算法都是提取一个全局的标引词集合,然后将文本表示成语义空间中的一个向量.由于全局标引词集合包含较多的噪音和冗余标引词,这些将极大地干扰分类算法的计算,而且过高的维度也会增加分类算法的复杂度,因此,该文提出了改进算法,在对文本进行分类时为每个类别提取一个局部语义空间.因为在局部语义空间中许多概念都变得更加明确,可以预测,多个局部语义空间能够比单个全局语义空间更好地表示分类信息从而提高分类算法的精度和效率.
其他文献
自动化排版技术由于其强大的效率和高度的智能化成为排版领域中的研究热点.该文比较分析了自动化排版领域中的各种技术,提出了一种基于参数和策略方法的交互式自动化排版技术
论文根据国内外在野外地质调查数据采集技术方面的研究现状,结合我国实际和新一轮国土资源大调查的要求,基于掌上电脑、3S技术等野外地质调查信息化的新一代野外数据采集技术
随着计算机优化技术的发展,分布式遗传算法得到诸多关注,其发展非常迅速。在分布式和并行计算模式上遗传算法可以显著提高优化效率,而且提出和改进的分布式遗传算法也很多。这些
Internet革命性地把用户与分布在世界各地、以不同形式存在的信息连接起来.可是,Internet上的窨信息资源仍然面向特定领域,依赖于特定的支撑环境,他们自自独立、相对封闭、无
云计算模式下生产型重要信息系统与传统的生产型重要信息系统相比,最大的特点就是,大量分散在用户终端计算机里的数据和文件,全部集中到中央服务器集群里。用户终端计算机不实际
20世纪90年代以来,随着Internet日益走进人们的生活,人们已经不满足传统的静态图片和文本信息,更需要以音频、视频为主的多媒体数据.网络和通信技术的迅速发展使得在网络上传
随着网络带宽高速增长,宽带接入(通过ADSL、cable modem等设备)Internet越来越普遍.流媒体系统中的主要制约因素是由于网络拥塞带来的报文损失和延迟,而不是由于用户接入的物
近年来,电子商务随着网络技术的飞速发展迅速普及,它已经成为了计算机行业中研究的热点问题之一。传统的WEB语言HTML由于其不可扩展性,已经远远不能满足电子商务的动态发展了,而X
地理信息系统简称GIS(Geographical Information System)是一种决策支持系统,它具有信息系统的各种特点。地理信息系统与其他信息系统的主要区别在于其存储和处理的信息是经过地
随着通信业务的发展及通信网络规模的进一步扩大,新技术、新设备、新业务不断出现,运营商对电信设备制造厂商同时组网的产品均提出了统一网管的要求,即不同类型的产品能在同一个