论文部分内容阅读
随着因特网的迅速发展,人们能获得的文本信息也急剧增长。如何快速的提取有效的信息是信息处理领域研究的重要内容,而文本分类是快速有效获取文本信息的主要方法,在文本分类过程中文本分类算法是保证分类速度和效果的关键技术之一,因此对文本分类算法的研究具有重要的意义,也是本文研究主要内容。本文首先对国内外文本分类研究现状进行了详细分析,并分析了文本分词、文本特征提取、文本表示等技术。其次对常用的聚类算法和分类算法进行了详细的研究,并重点对K-近邻算法和支持向量机算法在文本分类中的应用进行了研究。论文主要工作如下:第一,在深入研究了K-近邻算法基础上,针对K-近邻算法在文本分类过程中存在的类倾斜、存储与计算量大等问题,本文提出了支持向量数据描述(support vectordata description,简称SVDD)和改进K-近邻算法结合的分类策略。该方法首先采用SVDD方法对训练文本集中的各类进行裁剪,并形成新的训练文本集。然后通过类别标准差判断是否仍然倾斜,如果倾斜则对发生倾斜的类别进行收缩,形成调节因子。并通过调节因子对传统的K-近邻判别函数进行改进。通过实验证明,本文提出的新方法能有效的解决传统K-近邻方法的类倾斜问题,并且新方法的查全率、查准率、F1值高于传统的K-近邻方法。第二,详细研究了多类分类支持向量机在文本分类中的应用,为解决传统的一对多支持向量机存在样本不平衡性和不可分区域,本文提出相应的解决方法。该方法首先采用K-均值算法对训练集进行聚类,对每个类中不能正确聚类的文本采用一对多方法训练两类分类器,即训练对应类别的分类器,然后将训练集通过一对多SVM产生的分类器进行测试,将落在不可分区域的样本采用一对一方法进行再次训练,从而达到训练样本平衡和缩小不可分区域的目的。最后通过实验证明新方法在文本分类效果上优于传统的一对多支持向量机分类方法。本文对用于文本分类的主要分类算法进行了研究,并对K-近邻算法和支持向量机算法进行了改进,改进后的方法明显的改善了文本分类的效果,并为进一步的文本分类研究打下了基础。