基于依存关系和语义词典的文本分类研究

来源 :广西师范大学 | 被引量 : 0次 | 上传用户:q5479333321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅猛发展,日常生活中每天都会产生大量的以电子文件形式存在的数据,人们如何从海量数据之中获取想要的信息是当前研究的热点和难点,文本分类是其中的一个重要研究方向。首先,本文对文本分类技术的研究现状进行了介绍,并简要说明了本文主要研究的内容以及本文的创新点。随后对文本分类过程进行了详细的阐述,着重介绍了特征选择算法和文本分类算法,对其优缺点进行了分析、总结,并以此为基础提出了基于依存关系、语义词典和词性的特征选择改进方法和基于类中心向量改进的文本分类方法。针对基于统计学的特征选择算法的语义缺陷,本文引入依存关系、语义词典、词性对文本特征进行相关实验、分析,对得出的语义信息进行量化处理,并提出了改进的权重计算公式,对特征权重进行了一定程度的调整,实现了文本负作用特征的两次过滤,最终选择出最能表征文本、反映类别的特征向量,以达到提高分类效率、改善分类性能的目的。其中,在本文引入依存关系的过程当中,采用Stanford parser对原始语料集的所有文本的所有句子进行依存关系分析,并依据其分析结果对文本特征划分等级,形成依存等级表,结合语义词典提出改进的权重计算公式,对负作用特征进行一次过滤;其次,在本文对特征词性进行观察、统计实验时,我们发现文本中的实词对文本而言最具表征意义,并提出了词性等级表对特征词性进行了详细的划分,依据词性等级表,本文提出了进一步改进的权重计算公式,对文本特征实施第二次权重计算,根据权重值大小,对文本负作用特征进行二次过滤。实验证明,本文方法能大幅度过滤掉噪音特征,优化了文本特征向量,并有效的改善了分类器性能。在本文对朴素贝叶斯、最邻近法和类中心向量法进行对比实验之后,得出类中心向量法高效率、低精度的结论。由于效率高的特性更有利于构建自动文本分类体系,因此本文在对类中心向量法进行相关分析之后,针对其缺陷,提出了基于类中心向量法改进的文本分类方法,以实现分类的高效率、高精度,具体改进有以下几点:(1)在确定类中心向量和待分类文本特征向量时,采用的是本文提出的特征选择改进方法;(2)在量化类中心向量和待分类文本特征向量之间的相似度时,本文提出了新公式,有效的简化了相似度计算过程;(3)在相似度计算过程中的特征比对环节,本文引入Word Net的上下位关系和《同义词词林(扩展版)》的类相关词组分别对中、英文语料集进行特征聚类,以避免特征流失,并提高分类精度。随后,本文在不同数据集、不同分类算法上分别进行了大量的对比实验来验证本文基于类中心向量法改进的文本分类方法的有效性。在与类中心向量法的对比实验中,本文方法在复旦语料集、搜狗中文语料集、20Newsgroups语料集上的实验效果F1值比类中心向量法分别提高了5.97%、10.61%、12.48%;本文方法与基于贝叶斯的算法在复旦语料集、搜狗中文语料集上分别进行了对比实验,实验效果F1值分别提高了6.84%、11.37%;本文方法与基于KNN的算法、基于SVM的算法在复旦语料集、搜狗中文语料集、20Newsgroups语料集上实验效果F1值分别提高了1.84%、5.17%、12.44%,2.88%、11.54%、5.89%。最后,本文对比实验充分证明了本文方法在保证分类效率的同时,有效的提升了分类精度,改善了分类器性能。
其他文献
2014年珠江-西江经济带发展规划上升为国家战略预示着西南地区的经济发展将掀开新的篇章。珠江-西江经济带是全国第一个连接了东部发达地区与西部欠发达地区的流域经济带,区域内大多数为“老少边穷”地区,且具有通往世界市场的海陆大通道,地理区位优势突出,具备对外开放合作的潜力。对外开放合作,促进区域协调发展是经济带发展的重要目标之一。本文在新经济地理学、新经济社会学和共同体理论之下,构建了密度、距离、分割
学位
喀斯特植物多样性丰富,狭域分布现象和特有性显著。喀斯特生境特殊且异质性高,多样化的生境往往能够促使物种快速分化进而形成更高的物种多样性。重建快速分化物种或类群间的系统发育关系是系统发育研究中的关键难题,而重建正确的系统发育关系则是揭示物种起源和演化历史,以及进一步调控各类性状的关键功能基因等其它研究的前提和基础。目前,对喀斯特植物多样性的形成,尤其对其适应喀斯特多样生境的分子机理还缺乏研究,需要选
学位
水陆交错带是水生生态系统与陆地生态系统之间的过渡带,承担着能量流动、物质循环和信息交换的重要作用。水陆交错带植被作为水陆交错带重要的结构和核心,具有涵养水分、调节气候,缓冲污染、提供栖息地、旅游观光等作用。本研究利用植物区系地理学以及植物生态学的基本理论和方法,对漓江水陆交错带维管束植物的种类组成和区系成分进行系统的调查和研究,旨在为漓江水陆交错带生物多样性的保护、植物的开发和利用、植被恢复、景观
学位
生物多样性是人类赖以生存和发展的物质基础。然而人类活动与全球气候变化使生物多样性面临着严重的威胁。因此,生物多样性的发现、评估及监测刻不容缓。自然保护区拥有极高的生物多样性和环境异质性,在生物多样性保护与研究中具有重要地位。相对于其他动物,两栖动物对环境的变化更敏感,能够最直接感受环境因子的变化,因此,常作为衡量其栖息环境好坏的指标物种。本研究在广西猫儿山国家级自然保护区(简称猫儿山)设立了5个海
学位
随着电力网络的迅速发展,对电力网络进行稳定性分析也变得越来越复杂。近年来,世界各地发生了多起因电网暂态失稳而引起的大停电事故,其中,因为故障造成的暂态失稳最容易影响电网的稳定运行。为了确保电力网络安全稳定运行,在电网的构建过程中,我们不仅要对电网的充裕性和经济性问题进行充分考虑,而且要对电网在遭受大干扰时的动态行为进行深入的研究,以免给社会、人民造成巨大的经济损失。本文基于电力网络的类Kuramo
学位
麦穗鱼(Pseudorasbora parva,Temminck&Schlegel,1846)隶属于鲤形目(Cypriniformes)、鲤科(Cyprinidae)、鮈亚科(Gobioninae)、麦穗鱼属(Pseudorasbora),原产于东亚大陆,日本,韩国,越南北部以及中国台湾等地,但如今受人类活动影响,该物种已经广泛分布于全球范围内。麦穗鱼的引入会给入侵地造成严重的负面影响,其不仅可以
学位
随着软件行业的快速发展,软件工程越来越受到专家学者的关注,随着软件产品问题的出现,“软件危机”一词也被提出,专家学者开始将目光从软件的编码转移到软件需求上,于是需求工程这一分支逐渐变得非常重要。软件的需求是贯穿整个软件开发周期中的,软件需求并不是一成不变的,当软件需求发生改变时,软件开发人员要进行软件需求变更,正确的需求变更会节约开发成本,提高效率,错误的软件变更可能会延长开发时间,对软件制品的部
学位
随着社会经济的发展,电力网络在现代化建设中发挥的作用越来越重要,电网的同步稳定运行是保障人们正常生产生活的前提。可再生能源的快速发展,使得越来越多的分布式电站并入电网,为了提高资源利用率和电网效率,不同区域的电网开始互相连通,电网的规模和结构变得日益庞大复杂,其稳定性面临更大的挑战。应用复杂网络理论研究电网的同步、稳定性等动力学行为成为一个新的研究方向,其研究成果对保证电网的稳定运行和未来电网的升
学位
近年来,我国文化产业高速发展,文化企业人力资源管理工作的重要性日益凸显出来,文化企业新型人才培养以及人才队伍管理问题也逐渐受到关注。目前,我国文化单位人才补充脱节、离职率高、稳定性差等问题普遍存在。本文以SD出版社新编辑队伍作为研究对象,一方面SD出版社属于国有文化企业,面临着国内大多数文化企业人才短缺、人才队伍稳定性不强、储备人才少等问题;另一方面由于SD出版社员工业务培训较多、平台高,新编辑员
学位
随着国民经济的快速发展和人民生活质量的提高,人均用电量也逐年增长。为满足广大人民的用电需求,电力系统结构趋于复杂、紧密以及高度拓扑互联化。复杂化的电网虽然有着高效的传输供给能力,但同时很容易因为单一元件失效而引起整个电力网络的潮流转移、线路过载、电压失稳等状况,继而引发连锁故障。由于维护电网稳定运行的关键环节在电网中承担重要的传输任务,因此,及时识别出电网关键环节并采取相应保护措施,对降低大停电事
学位