基于潜在语义索引的文本分类技术的研究

被引量 : 0次 | 上传用户:longlivewebdynpro2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在过去的十几年中,将文本自动地归于事先定义好的类别的技术获得了长足发展,这主要是因为以数字形式存储的文档的数目急剧增长,引起了将它们进行有效组织以便于利用的需求。这一过程主要是用机器学习的方法,在事先构造的训练语料上学习各个类别的特征,自动构建出一个分类器。 传统的文本分类方法都是用词作为特征来构建的,而用词来表示文本的特征虽然简单直观,但有其固有的局限性,主要有包含的类别信息太少,维数过高从而造成数据稀疏等两个问题。用特征串作为类别特征可以在一定程度上解决第一个问题,但又会进一步加剧数据稀疏问题。对第二个问题的解决方法一般是进行降维,去掉一些对分类结果没有影响或影响很小的特征,用剩余的特征来表示文本。根据结果特征的特点,降维方法可以分为(1)特征提取:结果是原始特征的子集;(2)特征抽取:结果不是原始特征的子集。潜在语义索引是一种特征抽取的方法,它可以将特征从词空间映射到语义空间,同时解决这两个问题。 潜在语义索引能够预知查询中真正“暗含”的查询项和可以应用到文本中的潜在语义关系,它能从原始的特征中提取出正交基,这些正交基的数目比原始的特征数目要少很多,并且可以用它们来表示原始的特征,这样就将原来的高维空间压缩到低维的特征空间去,一般称之为语义空间。 传统的用来进行潜在语义索引的方法是奇异值分解,它的效果很好,但运算速率慢,转换后的矩阵是三个双精度的稠密矩阵,所需的存储空间太大。另一种方法是半离散矩阵分解,它的运算速度很快,转换后的矩阵是两个可以用0、1和-1来表示的矩阵和一个单精度的对角矩阵,所需要的存储空间大大降低,但这种方法的效果有所下降。 本文主要研究了把潜在语义索引用于文本分类的效果,对可能产生影响的因素进行分析,主要考查了不同的特征选取方法和权重计算方案对潜在语义索引的影响。我们还提出了一个潜在语义索引的改进模型,这个模型对提高半离散矩阵分解的效果有很明显的作用。 我们在中英文两个不同的语料上进行了试验,用KNN的方法来构造分类器。试验结果表明,特征选取方法和权重计算方案都对分类效果有明显的影响,但不同的语料需要不同的方法,没有哪一种方法适用于所有的情况。试验
其他文献
“四级办”电视台作为我国电视业的独特体制,在我国已经实行了二十多年,曾为我国电视业的发展作出过重要贡献。 但在电视产业化趋势越来越强的今天,“四级办”却显得越发
杠柳为萝藦科杠柳属(Periploca Linn.)植物,杠柳根皮为我国传统中药“北五加皮”,现代临床主要应用于增强心肌功能。本论文对杠柳属植物化学成分、药理作用和应用情况进行了
在我国许多地区的二次供水水箱和管网中均发现了摇蚊幼虫,对供水水质造成了污染.采用5种以维生素K3为主要成分的新型生物杀生剂(MPB、MTB、ME、MSB、MQ)对四龄红虫进行杀灭试
为解决水中“红虫”困扰供水行业和影响居民饮用水安全问题,通过对水厂工艺各环节的下网观察及对供水系统、二次供水、管网、用户等多方面调查研究,提出了防治水中红虫的具体措
<正>提到寺山修司,似乎离不开"前卫"二字,他短暂的一生极为丰富多彩,他是诗人、编剧、剧场艺术家、电影作者,又是一位赛马评论员、摄影师和生活改革者,广泛的涉猎也许是造就
<正>可能我们有时候并没有意识到,我们吃的能量棒里加入了铁,喝的运动饮料中加入了钙离子,面包则被加入了纤维,而麦片中这些营养元素全部都有……现在有10种营养元素越来越多
作为97年刑法增设的一个罪名,重大环境污染事故罪有诸多理论与实践问题值得探讨。其主观构成要件问题、侵犯的客体问题以及与投放危险物质罪等相关犯罪的区别问题,等等,多年
我国东西部地区经济发展存在的差距是不争的客观事实。然而,这种差距现象具体表现出来的问题比较多,但主要集中表现在五个方面:一是西部地区非国有制经济发展明显落后于东部
《夜色温柔》作为菲茨杰拉德有生之年最后一部完整的作品,倾注了作者大量的心血。然而相较于他的上部杰作《伟大的盖茨比》,这部小说自问世之日起,并没有获得期待中的成功。
目的:分析处女膜修补术不同术式的优缺点,探讨各种术式的最佳适应证。方法:根据患者的诉求及处女膜的破损程度,对所采取的术式及相应的疗效进行比较。结果:环行埋线法适用于