论文部分内容阅读
支持向量机(SVM)作为一种基于统计学习理论的新型机器学习方法,不仅较好地解决了非线性、高维数、小样本集合、局部极小点等问题,同时相对于神经网络有更高的泛化能力,是机器学习领域新的研究热点。文本分类是一种基于内容的自动信息管理技术,其稀疏性大、维数高;支持向量机对于稀疏性不敏感,处理高维数问题具有较大优势,因此,支持向量机非常适用于文本分类问题。但是,支持向量机分类算法仍然存在不足。例如,当训练集特别是文本训练集中样本数目多、噪音点多时,支持向量机由于过学习会增加训练以及分类时间,同时还会降低分类正确率等。本文针对支持向量机分类算法特别是它在文本分类中存在的问题进行了深入的研究,主要工作如下:首先,支持向量机在处理两类分类问题时,当两类样本混杂严重时会降低分类精度。因此,在NN-SVM分类算法的基础上,通过计算样本点与其最近邻点类别的异同以及该点与其k个同类近邻点在核空间的平均距离修剪混淆点,提出了一种改进的NN-SVM——KCNN-SVM算法。实验表明,KCNN-SVM算法与SVM以及NN-SVM相比,有着更高的分类精度和更快的训练、分类时间。其次,尽管SVM可以利用文本向量所有的特征进行分类并取得良好的性能,但是在某些特殊应用中,例如高速数据处理环境中,为了获得更高的效率,仍然需要对特征空间进行降维处理。本文通过潜在语义索引(LSI)分析文本向量各维与文本的语义联系进行特征抽取,同时利用KCNN-SVM算法对降维后的训练集进行修剪,最后用标准支持向量机建立文本分类模型。实验表明,基于潜在语义索引的支持向量机文本分类模型与标准的支持向量机相比,受到文本分词维数以及支持向量机惩罚因子选取的影响更小,其分类正确率更高。