基于特征选择和特征加权算法的文本分类研究

被引量 : 0次 | 上传用户:jessicazrz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网这一新型的信息传播方式的迅速普及,人们不仅可以轻而易举地获得全世界你想要的信息,还可以向全世界传递你所拥有的信息,人们在互联网上可获取的信息资源呈现爆炸式增长。同时,随着平板电脑、智能手机等网络终端的推出,以及各种社交网络的出现,如人人网、微博、微信、各种招聘网站和各种婚恋网站等等,更大大加快了互联网上数据信息增加的步伐。人们每天都会在这些应用上不断更新着各种各种的数据,文字、图片、视频信息等。有数据显示,互联网上每天都会有指数级的信息数据出现,人们已经处在一个信息极为膨胀的年代。面对这样如此庞大的信息资源,如何对其进行有效合理的管理,使人们获取目标信息更为方便快捷,已经成为研究的热点。而文本挖掘中的文本分类技术有效的解决了这一问题。文本分类是一项非常复杂的工程,本文在对其各个流程进行仔细了解分析之后,重点研究了特征降维和特征加权两方面的过程。经过文本预处理后的文本被表示为一个具有高维度和稀疏性的特征项向量空间,这不但增加了分类的时间复杂度和空间复杂度而且还大大影响到分类的精度。特征降维可以有效地解决这一难题,包括特征抽取和特征选择两种。相比较之下,特征选择算法因其过程比较简单,且可以取得比特征抽取算法更理想的降维效果,在文本分类系统中受到广泛应用。本文首先简要介绍了几种传统的特征选择算法,其中重点介绍被学者证明特征选择效果比较好的信息增益算法。分别从特征项频数在类内、类内位置和不同类间对算法的影响进行了分析,针对传统的信息增益算法对特征项频数考虑不足的弊端,提出一种改进信息增益特征选择算法IGimp。由于每个特征项对文本类别的分类能力都不一样,特征项的权重恰能体现其对文档表示能力的大小,而不同的特征权重算法对文本空间向量的构造会产生很大影响。本文首先简单介绍几种传统的特征项权重算法和它们的优缺点,随后详细分析传统特征加权算法TD-IDF的不足,首先针对IDF的不足进行改进,之后根据熵的概念提出类内和类间信息分布熵参数因子进一步对算法进行改进。为验证本文提出的改进信息增益特征选择算法和改进TF-IDF特征加权算法的有效性,文章在中文文本分类实验平台上进行两项对比实验。第一项实验是将改进的IGimp算法同另外四种常见的特征选择算法作比较,而第二项实验是将改进的TD-NIDFimp算法同传统的TD-IDF算法作比较。实验利用评价指标查准率、查全率和F1评估值对各算法进行分析比较,对比结果表明本文提出的IGimp和TD-NIDFimp改进算法都优于传统的算法,具有一定的有效性。
其他文献
数字媒体艺术专业是一个宽口径的新兴专业,是适应社会市场发展需求的多学科交叉性专业,以技术类课程为骨架并有其内在要求。我国数字媒体技术专业开设技术类课程占到总课程的
目前认知需求量表在医学领域很多方面都有应用研究,如医疗服务、医疗保障、精神健康评估领域等等,但是在医学信息服务领域的应用还未见报道。与国外研究相比,我国在“信息心理测
在被动毫米波探测原理的研究基础上,建立了辐射计天线温度模型与输出信号模型,对装甲目标进行了实战条件下的毫米波辐射温度计算与分析.指出在进行雷达隐身的同时,必须进行针对被
自从2000年中非合作论坛成立以后,中国与肯尼亚的经贸合作就迎来了新的生机,双边贸易规模呈现出了不断扩大的趋势,平均每年以30%以上的速度增长。截止到2010年的10年间,中肯贸易
本工作来源于国家科技支撑计划:“煤矿用红外CO检测仪(传感器)研发”。煤炭的不充分燃烧会产生甲烷和CO气体,轻者使人中毒,重者造成火灾矿难,近年来,各地火灾矿难事件频发,严重威胁
采用自下而上的研究方法,以汉语中表示“死亡”的词为例,逐条梳理分析各词项词义延伸过程中人际性隐喻映射的参与;对《新牛津英语字典》中100个常用动词的词义延伸过程进行逐
目的探讨脓毒症患儿红细胞分布宽度(red blood cell distribution width,RDW)、小儿危重症评分(pediatric critical illness score,PCIS)和血乳酸的变化及与预后的关系。方法
在浪漫主义时期,资本主义思想盛行,处在这个时期的西欧在民族解放运动思想的冲击下,唤起了世界音乐家的民族意识。作曲家们纷纷为追求张扬个性,不断的加入许多属于本民族特有的旋
目前可降解血管支架材料包括聚合物、镁合金、铁合金及锌合金,它们的降解特性直接影响其作为血管支架植入后的支撑能力、局部反应和血管修复的预后。聚合物降解时间较易调整
本文分四部分介绍了日本的犯罪侦查制度。第一部分介绍了日本古代犯罪侦查制度的萌芽、近代犯罪侦查制度的发展和现代犯罪侦查制度的演变;第二部分介绍了日本检察系统和警察