中文文本分类中特征选择算法的研究与改进

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:lsxfa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的快速发展,网络上每天产生的文本数据量在以指数形式递增,致使文本分类系统中出现“维度灾难”和特征稀疏性高等问题,严重影响了文本分类的分类效果。因此,本文把文本分类中的特征选择算法作为主要研究对象,对CHI特征选择算法和信息增益特征选择算法进行了深入研究并做出了改进。针对传统的CHI特征选择算法未考虑词频信息,及放大了与文本类别负相关的特征词权值的缺陷,本文基于传统的CHI特征选择算法,提出了一种自调节的特征选择方法,该方法引入自调节比例因子,可自动调节与文本类别呈正、负相关的特征词的权值,消除了人为设置比例因子带来的误差,又引入了词频因子和类间方差,使最终选择出的特征词在特定文本类别中出现频数多而在其它的文本类别中分布较少,进而提高了特征选择的精确度。针对传统的信息增益算法未考虑词频信息和特征词离散度的不足,本文基于传统的信息增益算法,通过引入特征频度比和离散度信息,降低了文本集合中分布不均衡的特征词对特征选择的影响,再从传统信息增益算法的计算公式中剔除特征词未在文本类别中出现的情况,进一步优化了算法,从而提高了特征选择的精确度。本文设计了相关实验对两种改进算法进行验证,通过对比实验表明,改进的CHI算法在均匀语料库中获得较好的分类效果,改进的信息增益算法在非均匀语料库中获得较好的分类效果。
其他文献
本文对我国普通高校成人高等教育的现状及存在的不足进行了深入的反思和剖析,并结合国外成人高教发展动态,预测成人教育的趋势,相应提出了中国成人高等教育改革发展的思路和
2003年10月20~24日,全国部分高等师范院校成人教育理论研讨暨成人教育期刊协作会第十二次会议在古城西安召开.会议由陕西师范大学继续教育学院承办.福建师范大学、浙江师范大
本文在国际视野中论述了发达国家与地区终身学习和成人教育的立法实践及主要特点,并从中归纳概括出它对我国终身学习与成人教育立法研究的启示。
为合理配置农业资源,实现农业的可持续健康发展,该文对菏泽市的优质小麦精细化农业气候区划进行了研究。在综合分析小麦全生育期间的气候条件的基础上,综合考虑了菏泽市的土
本文从四个方面论述了欧洲成人高等教育改革与发展的最新动向,并用比较的观点,概括了欧美等发达国家成人高等教育的改革观点,以期对我国成人高等教育的发展有所启示。
随着经济全球化的不断发展,我国民办高校思想政治教育工作面临着许多新的形势,思想政治教育工作的环境、对象和内容都发生了深刻地变化。加强对学生党员的教育管理,充分发挥学生
兩年前,我曾無意中又發現了一位上海雜劇作家,並看到了他的作品的稀有抄本。這位作家便是南雜劇《餘慈相會》的作者顧思義。1959年的某一天,在一家舊書店的一堆不引人注意的
期刊
近年来,许多高校开设了设计性实验内容,这是高校重视学生创新意识、科研思维训练,适应社会发展趋势,企业人才需求而确定的学生培养方式。设计性实验是由教师根据课程内容,确定实验
提出了一种基于遗传算法的面向应急对地观测任务的多平台资源部署优化方法。该方法通过把观测区域离散化为网格点的集合,将多平台资源部署问题形式化为一个组合优化问题,其目标是在一定响应时间约束下最大化观测区域覆盖率。设计的求解算法采用整数编码表示各平台资源的部署位置,使用精英保留策略加快算法收敛速度。仿真结果表明,该方法能够快速获得满意的卫星、飞艇、无人机多平台资源部署方案。
王屋是晚明嘉兴一位布衣词人,其交游十分广泛,主要交往对象包括嘉兴望族如魏氏、钱氏、陈氏、曹氏、支氏;江南文士如吴熙、夏缁、顾艾、卞洪载、陈继儒、钟惺;方外人士如黄叶