论文部分内容阅读
时代的飞速进步,信息技术的快速发展,信息获取的途径多样化、信息的表现形式多元化、信息容量的膨胀化,特别是网络上电子图书、电子信息等海量的电子资源,给予我们搜取信息极大地便利性,但同时也带来一个严峻的问题。怎样才能从如此庞大的信息库中准确快速的获取我们所需要的信息就是亟需解决的问题。目前,文本分类技术以其实用性受到了研究者的关注。文本分类也成为当前热门的研究课题之一。本文首先概述了中文文本分类的流程以及在分类流程中所涉及的相关理论:简要的分析了布尔模型、概率模型和向量空间模型这三种文本表示模型的表示原理以及各自的优缺点,其中重点描述了向量空间模型;对信息增益、文档频率、期望交叉熵、互信息和x2统计特征选择方法进行详细地介绍以及优缺点的比较,比较了常见文本分类算法Rocchio、朴素贝叶斯(NB)、支持向量机(SVM)、K最近邻(kNN)的优缺点,对分类器性能评价指标召回率、准确率和F1值等做了简单描述。其次深入分析了K最近邻算法,总结了近年来各研究对KNN算法改进方案,并针对其存在的问题,提出一种改进方案。新的方案引入拉推策略的思想,通过对误分样本的迭代分类,为每个类设置一个权向量,改进了相似度计算公式,从而提出一种改进KNN算法。最后,设计了四组对比实验,选取了较合适的特征维数和K值,实验证明,改进的KNN算法有较好的分类性能。