论文部分内容阅读
随着互联网技术的快速发展,网络中的文本以指数形式的速度增长向大众铺面而来。因此,如何提高新闻文本分类的高效性和准确性、提高高质量和智能化的新闻文本分类、快速提取出用户所需要的信息服务具有重要的意义。特征选择是新闻文本分类降维的主要方法之一。常用的特征选择方法考虑特征词与类别的关系不是很全,而且默认在均衡的数据集上。现存的文本特征选择方法往往存在一定的缺陷。新闻文本本身的多样性、复杂性、不确定性等特点,加上热词的增多,同时特征子集空间规模的大小不容易确定,给特征选择的研究带来了一定的难度。本文针对新闻文本中,特征及样本的不均衡问题,做了如下几个方面的研究工作:1、研究了新闻文本分类的相关理论与技术。深入理解几种常用的特征选择方法,并比较它们之间的优缺点及适用场景。2、新闻文本分类效果的优劣关键因素之一是特征子集的选择。针对常用特征选择技术的不足、特征项本身的不确定性,本课题在特征项粒度级应用了模糊集理论的知识,对期望交叉熵特征选择方法进行了改进,提出了模糊期望交叉熵(AFECE)的特征选择方法。通过三种常用的特征选择技术和AFECE特征选择技术,采用同一分类器模型,进行仿真。通过三个评价指标值对它们进行比较、研究分析,可以看出所提方法是有效的。3、研究了基于云模型的参数优化技术。上面所提的特征选择方法都面临着特征子集空间规模大小k值难以确定的问题。为了解决这个问题,本章加入粒子群技术对参数进行优化。本论文利用云模型的稳定性和随机性等特性来解决传统的粒子群技术存在早熟收敛的问题。4、研究了数据不均衡情况下的问题。虽然改进的特征选择方法,可选择出较优的特征子集,但是针对数据不均衡、稀疏、边缘数据的样本,其分类性能却不是很理想。针对此问题,在KNN分类器模型的基础上,考虑将K值的归属模糊化进而来弱化这些干扰,提出AFKNN分类器。仿真实验表明,通过AFECE特征选择方法选出的特征子集,对分类模型的性能有更高的分类性能;通过云模型的粒子群优化方法,需较少的特征维数可达到较好的分类效果;为了解决新闻文本的不均衡问题,特征维数为100维时,AFKNN的分类器比传统的分类器,准确率提高了3%左右。