论文部分内容阅读
支持向量机(Support Vector Machines, SVM)是一种建立在统计学习理论的VC维理论和结构风险最小化原则基础之上的机器学习算法,能够很好的解决小样本、非线性及高维模式识别问题,能够克服―维数灾难‖和―过学习‖等困难,具有较好的泛化性能,因而被广泛应用于解决模式识别问题。虽然SVM在解决分类问题中显示出了极好的性能,但是SVM在解决大规模数据集问题时存在训练收敛速度较慢,存储和计算代价较高等缺点。在不平衡数据集和噪声数据集分类问题中SVM也面临着和传统机器学习算法一样的挑战。本文的主要内容是研究非凸在线支持向量机算法及其在文本分类中的应用。首先,介绍了机器学习的基本问题、统计学习理论的核心内容,详细介绍了支持向量机相关理论知识,并讨论了支持向量机分类不平衡数据的问题。然后,研究了非凸在线支持向量机算法,并在LASVM代码基础上实现了该算法程序。与SVM基于Hinge损失函数构造凸优化模型通过批处理方式反复迭代求解不同,非凸在线支持向量机基于Ramp损失函数构造非凸优化模型通过在线学习方式迭代求解,只需花费较少的训练时间和计算资源,就能产生泛化性能相当甚至更好、同时支持向量更稀疏性的分类模型。非凸在线支持向量机对含有大量类标签错误的噪声数据集具有较强的抗离群点干扰能力,同时具有处理大规模数据集分类问题的能力。本文也指出了它在处理不平衡数据集分类问题时的不足,并基于不同错分惩罚代价思想改进了非凸在线支持向量机。最后,研究了非凸在线支持向量机在文本分类中的应用。分析了常用的特征赋权值方法,详细介绍一种新颖、稳定的特征赋权值方法——词频相关频率积,并设计实现了文本分类处理程序。提出了一种基于非凸在线支持向量机和词频相关频率积的文本分类方法。实验比较分析非凸在线支持向量机与不同特征赋权值方法结合的分类性能,并与传统支持向量机进行对比分析,特别是研究了在噪声数据集、大规模数据集中文本分类的性能。本文提出的基于非凸在线支持向量机和词频相关频率积的文本分类方法是一种性能优越的文本分类方法,特别是在噪声数据集、大规模数据集文本分类问题中表现出非常明显的优势。