基于云模型的新闻文本特征选择方法研究

来源 :上海师范大学 | 被引量 : 0次 | 上传用户:fengyaoying
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的快速发展,网络中的文本以指数形式的速度增长向大众铺面而来。因此,如何提高新闻文本分类的高效性和准确性、提高高质量和智能化的新闻文本分类、快速提取出用户所需要的信息服务具有重要的意义。特征选择是新闻文本分类降维的主要方法之一。常用的特征选择方法考虑特征词与类别的关系不是很全,而且默认在均衡的数据集上。现存的文本特征选择方法往往存在一定的缺陷。新闻文本本身的多样性、复杂性、不确定性等特点,加上热词的增多,同时特征子集空间规模的大小不容易确定,给特征选择的研究带来了一定的难度。本文针对新闻文本中,特征及样本的不均衡问题,做了如下几个方面的研究工作:1、研究了新闻文本分类的相关理论与技术。深入理解几种常用的特征选择方法,并比较它们之间的优缺点及适用场景。2、新闻文本分类效果的优劣关键因素之一是特征子集的选择。针对常用特征选择技术的不足、特征项本身的不确定性,本课题在特征项粒度级应用了模糊集理论的知识,对期望交叉熵特征选择方法进行了改进,提出了模糊期望交叉熵(AFECE)的特征选择方法。通过三种常用的特征选择技术和AFECE特征选择技术,采用同一分类器模型,进行仿真。通过三个评价指标值对它们进行比较、研究分析,可以看出所提方法是有效的。3、研究了基于云模型的参数优化技术。上面所提的特征选择方法都面临着特征子集空间规模大小k值难以确定的问题。为了解决这个问题,本章加入粒子群技术对参数进行优化。本论文利用云模型的稳定性和随机性等特性来解决传统的粒子群技术存在早熟收敛的问题。4、研究了数据不均衡情况下的问题。虽然改进的特征选择方法,可选择出较优的特征子集,但是针对数据不均衡、稀疏、边缘数据的样本,其分类性能却不是很理想。针对此问题,在KNN分类器模型的基础上,考虑将K值的归属模糊化进而来弱化这些干扰,提出AFKNN分类器。仿真实验表明,通过AFECE特征选择方法选出的特征子集,对分类模型的性能有更高的分类性能;通过云模型的粒子群优化方法,需较少的特征维数可达到较好的分类效果;为了解决新闻文本的不均衡问题,特征维数为100维时,AFKNN的分类器比传统的分类器,准确率提高了3%左右。
其他文献
随着网络技术的快速发展,各式各样的网络应用和终端层出不穷,当人们在使用这些应用和终端时会产生大量包含用户信息的数据。这些用户信息包括性别、年龄等普通信息,也包括疾
大多数图像降噪算法的性能在不同程度上依赖于对待处理噪声图像中噪声水平值的准确估计。目前大多数噪声水平估计算法是基于单幅噪声图像设计的,由于仅有含噪声图像本身可以
当今社会,信息技术高速发展,大数据的应用越来越广泛,各种数据已经渗透到社会的各行各业。因此,海量的数据成为了当今社会最具价值的一种财富,大量企业为了通过进行数据处理
因目标表面超出摄像机视场范围、回转体各部分之间相互遮挡或者测量精度的要求等原因,使得从任何测量角度都无法实现一次完成整个目标的三维测量工作,大型物体表面和回转体表面
2018年是内蒙古广播电视台蒙古语电视节目开播以来42周年。42年来,蒙古族电视人经过不懈努力和付出换来了今天蒙古语电视广播和世界先进民族电视文化的齐肩并进。现今,蒙古语
提出有效的打击伪基站方案对于安全部门有着重要的价值。由于打击和防治伪基站缺乏有效的分析工具和完善的决策机制,导致这种分析和决策的制定成为巨大的挑战,因为可供做出决策的垃圾短信数据从直观的角度来看是离散的、随机的,很难掌握其时空行为规律。在本文中,我们利用垃圾短信的定位、时间和内容数据,提出了一套交互式的可视化系统,通过三个层次,解决了上述两大主要挑战:首先探索垃圾短信的类型与时空分布之间的关系,可
平面-立体的转换是计算机辅助关键技术之一,本项目研究包袱皮平摊图与其包裹长方体物体之间的平面-立体相互转换关系。包袱皮为正方形布料,它可以包裹所携带的物品并方便携带,是
新课程改革要求重视学生的全面发展,强调课堂教学中学生的主体地位,合作探究学习法既是教师的教学法,也是学生的学习法,以其对提高学生语言表达能力和独立思考能力及对提高教
加蓬被认为是国际贸易中的一个国家,因为它在热带森林中拥有丰富的自然资源,占总陆地面积的85%。加蓬的大部分森林财富都在刚果盆地,这是目前世界上仅次于亚马逊的拉丁美洲美
随着数据存储与信息化技术的迅速发展,生物序列数据库的数据量呈现井喷式增长,生物序列上的近似查询难度越来越大。虽然有多种方法度量两个序列的相似度,但是普遍关注的方法