论文部分内容阅读
随着网络的高速发展,许多的文档数据涌现在互联网上,自动文本分类技术变得极为重要,已渐渐成为组织和处理海量文档数据的关键性技术。文本预处理的好坏决定着分类器的分类性能。本文研究了文本预处理和文本分类算法,有效地提高了分类器的分类正确率和查全率。论文主要做了以下工作:(1)介绍了网页文本系统的概念与意义,介绍了几种新的网页文本分类算法,分析了现有的网页文本分类算法中存在的问题并对网页文本分类算法的发展方向做出展望;(2)将潜在语义索引理论知识应用到网页文本特征的降维,潜在语义索引通过奇异值分解技术将词频矩阵转化为奇异矩阵,通过潜在语义索引可以将文本中同义词、近义词用一词根代替,以降低网页文本的特征向量维度,达到减少计算量的目的;(3)将支持向量聚类应用于网页文本分类。支持向量聚类是一种基于小样本的聚类算法,能处理各种形状的聚类,无需事先指定聚类数目,而且参数少,容易处理文本特征向量的高维数据。针对网页文本分类的特点,采用小样本训练机制,减少了存储空间的占用并减少了后续训练的时间;实验表明,该方法可以提高网页文本分类的准确率。本文研究了基于潜在语义索引和支持向量聚类的网页文本分类算法,提高了网页文本分类算法的准确率。从理论上给出了这种方法可行性的依据,通过实验验证了这种方法的可行性和有效性,是一种具有应用价值和实际意义的网页文本分类方法。