基于位置加权和特征贡献度的中文文本分类研究

来源 :天津师范大学 | 被引量 : 0次 | 上传用户:dingdingdeaiqing86
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着当今网络信息量的飞速增长,海量的网络文本数据也在呈现指数级增长,传统的人工分类方法显然已经不适用,文本分类技术应运而生。文本分类是在指定的分类系统下,依据待分类文本的特征判定其所属类别的过程。文本分类技术能快速而准确的帮助人们查找所需的信息,具有很大的应用价值。  目前,针对文本分类技术的研究主要集中在以下三方面,文本表示、文本特征选择以及分类算法的改进。本文对文本分类技术进行了系统的介绍,在分析了各种特征提取技术之后,探索并提出了一种新的特征提取方法。该方法针对中文期刊类文本提出,结合文本结构和类别信息对传统特征提取算法加以改进,以期取得更好的文本分类效果。  本文针对期刊类文本的结构信息探讨了特征项的位置加权,对重要位置的特征项赋予较大权值,在一定程度上能够提升文本分类的准确性。本文对传统的TF-IDF算法进行了改进,TF-IDF算法是当今特征加权算法中应用较为广泛和经典的算法,但其自身存在一定的缺陷,针对多类文本分类时,TF-IDF算法忽略了文本特征项的类内和类间分布状态,因此进行特征加权时存在一定的误差,单纯对稀有的特征项赋予较大的权值,对更能区分文本类别的特征项赋予的权重过小。因此,本文结合了文本特征项的贡献度对TF-IDF算法进行了改进。  本文通过多组对比实验验证了改进的特征提取方法在中文文本分类上的有效性。实验结果通过多重评价指标进行分析,如查全率、查准率和F1值等,实验结果表明基于位置加权、结合特征贡献度的TF-IDF算法针对中文期刊类文本的分类结果优于传统的TF-IDF算法。
其他文献
全球数百名事故车行业代表,于6月10-12日汇聚于意大利风景秀丽的马焦雷湖畔,参加每年一次的全球事故车高峰论坛(IBIS).本次论坛的核心主题是“追求进步的激情”,吸引了来自全
期刊
在语文教育研究不断深化的大背景下,“体式”一词被正式提出了。体式是对文本解读理论的深入探寻。本研究试图初步建构一个以体式为指导的文本解读理论体系。本研究以体式概述
2015年,一辆配色非常独特的路虎卫士90在伦敦PaulSmith工作室亮相,该车是由英国著名时尚设计师Paul Smith爵士与全球顶级越野品牌路虎跨界合作,携手打造的一款世界上独一无二
期刊
针对光伏发电系统中光伏电池板串并联带来的多峰值问题,基于自适应全局最大功率点追踪算法设计了最大功率追踪控制器.该设计以TMS320F28335 DSP芯片为基础,采用嵌入式μC/OS-
西楚文化是指以宿迁及其周边地区为中心的、以传承古楚文化为内核的地域文化体系。传承、保护、利用和发展好西楚文化资源,对学校进一步开展素质教育,提升西楚文化内涵,发挥
中国电器工业协会电焊机分会(以下简称分会)六届理事会于2011年10月在江苏南通召开的六届一次会员大会上选举产生,至今已经四年了.在这四年中,国内外态势非常严峻复杂,行业面
期刊
2013年,面对宏观经济低迷和人民币升值压力,今年舒野音响必定会交出满意的答卷.成立于1 997年的广州市舒野电子在发展的历程中,始终与时俱进,敢为人先,从“舒野制造”到“舒
随着科技和网络的快速发展,人们已经进入了大数据时代,互联网上的信息资源已经多到人们无法想象的数量,不仅如此,互联网上每天还在产生着大量的信息资源。  网络上充斥着大量的
《1828耶鲁报告》全面系统阐述耶鲁学院经典博雅教育理念,是19世纪美国最有影响的高等教育文献,在整个美国高等教育发展史中有着显著位置。 本文是中国大陆教育研究领域首
当今健康教育的重点人群已经指向了儿童和青少年,学校健康教育已经成为健康教育的一个最重要组成部分。学校健康教育自身发展以及与健康促进结合日益紧密的趋势,让人们已经越来