基于潜在语义索引的文本分类研究与实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:bluelink
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
潜在语义索引模型(Latent Semantic Indexing, LSI)是经过实验验证的文本分类技术中行之有效的维数约简算法之一。潜在语义索引模型对原始特征空间降维的过程是一个在降维的同时尽可能保留原始特征空间全局信息的过程,那么在这个过程中不可避免的会过滤掉一些对某些类别识别很重要,但是全局考虑下又不是很重要的特征。因此,针对上述问题,我们对传统LSI模型进行了改进。首先,在基于词频的权值计算的基础上,针对传统方法存在的缺陷,本文在计算过程中提出了文档权重的概念,使新的权值计算方法更有利于潜在语义空间的生成,更适合潜在语义索引模型;同时增加了词语位置信息,使得词语的权值计算更加精确。然后,在对传统χ2统计方法的分析基础上,针对传统χ2统计方法对于稀有类别信息的不重视以及对于特定情况下χ2统计量错误的过高等缺陷,本文引入了频度、集中度、分散度三个指标,使得新的χ2统计方法更加精确。最后本文在传统LSI分类方法的基础上增加了对类别信息的考虑,利用偏最小二乘回归提出新的文本分类方法,称之为基于类别信息的潜在语义分类方法(Latent Semantic Classification based on Category Information, LSCCI)。本文较为详细的阐述了潜在语义索引模型的实现原理,对LSCCI的推导过程进行了详细的阐述,并将LSCCI与其他经典分类模型的性能进行了比较分析。实验数据表明,LSCCI具有较好的分类准确度。在英文文本分类实验中,对于稀有类别表现出比传统分类模型更为优秀的分类性能。
其他文献
无线传感器网络(WSN)在解决真实世界的问题时有非常重要的意义,在近年来吸引了越来越多的研究兴趣。传感器网络最重要的应用之一就是对事件的监测。大部分现实世界中的事件都
多核并行计算已经成为当今计算机新的领域,而多核之间如何进行通信也已经成为了当今研究的重点内容,尤其是嵌入式系统中在多处理器之间选择合适的通信机制不仅能够提高并行化的
串匹配算法是计算机科学领域中一个重要的基础研究领域。在文本处理、数据压缩、搜索引擎、生物计算,以及网络安全等大量的应用中,都需要进行串匹配。本文主要讨论精确模式串
信息时代的到来带来了大数据时代的契机,同时也带来了信息的爆炸式增长。多元化的知识信息给人们提供便利的同时,也带来有效获取真正感兴趣知识的困难,由此知识的个性化服务
秘密共享是门限密码学的基础。门限秘密共享的主要思想是将一个秘密分割成若干子秘密分散存储于多个成员,当需要重构秘密或使用它进行某种密码运算时,必须多于特定数量(门限
目前嵌入式系统已经广泛应用在航天、航空、工业机器人、系统控制等领域,然而,海量数据处理对嵌入式计算系统提出了更高的要求。为了开发更高性能的嵌入式系统,并行计算成为提高
当今数字化时代,对于企业的运作发展,信息技术扮演着越来越重要的角色,软件系统的破坏和数据资料的损毁将对企业造成难以估量的损失。而很多灾难事件又无法预计和避免,如雪灾、恐
随着无线通信技术和多媒体技术的飞速发展和日益成熟,无线分布式环境下视频应用的需求变得日益迫切。具有高复杂度编码器的传统混合编码技术已经不再适用于这种应用环境,迫切
密文数据库检索方法是数据库加密技术研究的难点和重点。目前,对密文数据库检索方法的研究还处于起步阶段,各方面的技术还不成熟,存在一定的缺陷。本文对密文数据库检索方法
随着互联网技术的高速发展,人们所面临的数据几乎呈爆炸性的增长,而传统的数据挖掘算法在处理大数据时已不能满足人们对时间性能的要求,那么如何能快速的从大量数据中提取有