一种潜在语义索引差异模型及其应用

来源 :烟台大学 | 被引量 : 0次 | 上传用户:guhiayan123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,文本自动分类是信息检索领域中的研究热点之一,传统的文本分类方法是采用词作为特征构建特征向量,但是文本中词的数量非常大,导致了特征向量空间的维数非常高,因此需要对文本进行降维。目前降维技术主要有两种:特征选择和特征抽取重构。本文所采用的潜在语义索引(Latent Semantic Indexing,LSI)是一种特征抽取方法,可以将特征词空间映射到低维的语义空间,达到明显的降维效果。目前,潜在语义索引广泛应用于信息检索领域,由于LSI在降低维数的同时忽略了样本的类别信息,是一种完全无监督的降维方式,因此,不能起到优化类别区分能力的作用。近年来出现了很多对LSI的改进,如局部潜在语义索引模型(Local Latent Semantic Indexing,LLSI)和有监督的潜在语义索引模型(Supervised Latent Semantic Indexing,SLSI)等。它们将文本的类别信息加入到了潜在语义空间中,进而改善了文本分类的精度。本文在各种LSI模型的基础上,提出了一种新的潜在语义索引模型——潜在语义索引差异模型(Difference Latent Semantic Indexing,DLSI)。介绍了潜在语义差异模型的原理,并借助SVM文本分类算法与其他经典的潜在语义索引模型进行了性能比较。实验证明,DLSI具有良好的分类有效性和准确度,尤其在英文文本的分类实验中,分类精度比其他模型有明显提高。本文的创新点之处有:1)在各种潜在语义索引模型的基础上,提出了一种新的潜在语义索引模型——潜在语义差异模型DLSI;2)对比了各种LSI模型对英文文本的分类性能,验证了DLSI模型的分类有效性。
其他文献
智能控制技术是当前控制领域研究的热点之一,广泛应用于不确定性、非线性等复杂系统的控制中。机器人足球是一个典型的多智能体系统,作为智能控制技术研究领域的标准问题,引起越
网格技术试图将广域分布的各种计算资源、存储资源、仪器设备等集合起来进行有效聚合和共享,并以统一的方式向外界用户提供服务。网格系统的设计是一个非常复杂的系统工程,它
为了满足在未来航天器上进行科学实验和空间探测的有效载荷数据采集、处理、存储、综合传输和数据管理需求,我国开始进行星上数据管理系统研究,本论文重点研究了基于1553B数据
随着Internet的广泛应用,导致庞大的数据库日益增多,为了从这些数据中提取出对数据库拥有者有价值的信息,数据挖掘这门学科应运而生。目前数据挖掘技术之所以被认为具有令人兴奋
随着计算机网络的迅速发展,互联网用户不断激增,网络的拥塞也变得越来越严重。自从Jacobson于1988年提出拥塞控制的概念以来,拥塞控制引起了人们极大的关注,各种拥塞控制理论以及
随着工业自动化的发展,基于GPRS的城市内集中监控系统得到广泛的应用。GPRS模块通讯的设计和开发成为主要的问题。本文分析了当前GPRS通讯模块开发中存在的若干问题,并针对这些
本论文介绍了一个基于形式语言的加密系统,并针对此系统实现的难点——密钥的存储与管理,提出一种码字表的存储方法。在对加密系统和前人研究的结果进行分析的基础上,总结原实现
随着信息化、数字化的发展,传统的广播电视节目已经实现用户点播的功能。目前整个广电行业的焦点聚集在了“数字电视”业务上。如何有效地管理数字电视用户信息,推动数字电视
本文介绍了作者参与设计和实现的远程教学平台中的考试与评价子系统,该系统以基于建构主义理论的现代教学模式与教学评价方法为指导,以因特网为传输载体,采用基于B/S模式的架
将电子商务引入保险行业,是信息技术不断发展的结果。PICC电子商务平台是中国人民财产保险股份有限公司在市场经济的大环境下,本着以客户为中心的宗旨,为更好的拓展保险业务