文本分类中特征向量空间降维方法研究

被引量 : 0次 | 上传用户:mowei1991
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
万维网络信息的激增使得人们在面对海量的信息时很难进行选择,文本分类正是为了解决万维网信息检索杂乱无章的现象,作为一种信息组织和管理的技术被提出来的。然而与人工分类问题相比,自动文本分类面临许多问题,主要有:1)用于文本表示的向量空间的维数过大,在这种高维的向量上运用分类算法,很难有大的区分度以区分不同的类别;2)训练文本集必须要覆盖向量空间中的所有特征词,否则通过训练得出的分类器有可能出现偏差,然而对于一个高维的向量空间,要覆盖所有的特征词是很困难的。为了克服上述两个主要问题,特征向量空间降维的概念被提了出来,其方法在近年来得到广泛的关注和研究。本文在前人工作的基础上,着重对基于概念统计的降维方法进行了研究。本文首先对文本分类的基本概念和知识进行了归纳,分析了文本的向量空间模型的表示效力以及它对于分类效果的影响因素;讨论了对特征向量空间进行降维的必要性和基本思路;在对特征词局域性分析的基础上探讨了局部降维的优势;分析了已有的特征空间降维算法,并总结了它们各自的优缺点;讨论了特征词选择和析取的原则及其主要方法。在此基础上本文分析了词形统计的局限性并阐述了引入概念的优势;分析了概念间的层次结构关系;基于对现有的向量空间降维技术的剖析,融合概念分析的方法,提出了一个基于概念统计的向量空间降维方法;并根据在实验中发现的问题对算法进行了改进,使得算法更加完善,并分析了主要算法的时间复杂度。该方法首先对训练文本集中的每篇文本提取出原始的特征词,经过去除停用词、词义消歧的处理后,在类的内部利用概念间的层次关系(主要是上下位关系)用基于概念统计的方法对特征向量进行局部降维。得出的向量与降维前相比,低频特征词的数目大为减少,高频特征词数目增多,且高频特征词的频度得到加强,特征词总的数目减少,向量的维数降低,对于所属类别具有更强的关联性和较好的表示效力,特别是具有较低的冗余和噪音,很好地达到了降维的目的。在对所给算法进行详细说明的基础上,本文对该算法的有效性和可行性用实验进行了评估,分析了实验数据,对实验结果中特征词的频度分布的各种情况探讨了其产生的原因,并对将本文所给算法得出的特征向量运用于具体的文本分类时可能出现的结果进行了分析。另外,本文还对阀值的选取及其依据等降维处理时的取舍策略做了进一步的研究,实验结果也证明本文的阀值选取具有合理性。
其他文献
近10年来,我国高速公路快速发展,一些经济较为发达的省份(如江苏省、浙江省等),省内的高速公路路网(以下简称省域路网)骨架已经初步形成。然而不幸的是,高速公路在促进国民经
建立知识产权联盟,有利于高新技术业整合研发资源,提高研发资源利用效率,然而由于研发企业间的同质竞争、利益分享有限等问题的存在,使得现实中大多数知识产权联盟无法发挥应有的
随着我国经济水平的不断提升,众多事业单位的发展也变得越来越好,作为国家经济发展的重要组成部分,事业单位在现代化社会领域中所起到的作用是不言而喻的。由此可见,加强各事
境外上市是中国改革开放以后推出的一系列改革措施中的一项开创性的成功尝试,它是中国证券市场国际化、深化国有企业改革、拓宽企业融资渠道和国内企业走向国际化的必然选择。
随着DSP和现场总线技术的日益发展,绝缘在线监测系统在变电站电气设备的监测中发挥着越来越大的作用。位于现场端的绝缘在线监测板卡是绝缘在线监测系统的核心模块,其性能直
本文以20世纪80年代的探索戏剧为参照,集中从内容与形式两个方面探讨20世纪90年代先锋戏剧的特点。国内有一些学者将80年代的探索戏剧同90年代的先锋戏剧放在一起,将它们统统
随着信息技术的迅猛发展和信息化在企业中的普遍应用,信息技术带来的变革不仅仅是技术上的,更是涉及到组织机构和业务流程的变革。如果不积极应对变革中的诸多问题,必然会受
随着嵌入式技术的快速发展,特别是嵌入式微处理器处理能力的大幅提高和嵌入式操作系统广泛使用,嵌入式系统已成为后PC时代一个新的发展方向。本论文对基于ARM的嵌入式便携终
在本文中,我们提出了基于概念的文本表示模型。该模型以WordNet语言本体库为主要的概念知识源,即将该本体库中的每个同义词集合看作是能表示明确语义的一个概念,再将文本中的
预应力技术是市政路桥施工的重要组成部分,必须坚持对该方面的技术手段合理的落实,由此能够创造出更高的价值。本文就此展开讨论,并提出合理化建议。