论文部分内容阅读
基于统计学习理论的支持向量机算法具有坚实的数学理论基础和严格的理论分析,具有理论完备、全局优化、适应性强、推广能力好等优点,是机器学习中的一种新方法和研究新热点。它使用结构风险最小化原则,综合了统计学习、机器学习和神经网络等方面技术,在最小化经验风险的同时,有效地提高了算法泛化能力。它与传统的机器学习方法相比,具有良好的潜在应用价值和发展前景。本文通过分析和总结现有的几种典型支持向量机算法,提出了一种新的组合SVM新构架,对其算法的性能和应用作了深入研究。主要工作包括:(1)对文本分类的概念、分类技术进行系统地介绍。(2)系统地研究了支持向量机的求解方法。主要有支持向量机的二次规划求解法、选块法、分解法、序列最小优化方法、基于Lagrange函数的迭代求解方法即Lagrange支持向量机、基于Smoothing处理的牛顿求解方法。这些方法是通过求解凸二次规划问题或将大规模问题转化成若干子问题再求解凸二次规划问题,或者是转化为无约束最优化问题再利用比较成熟的最优化方法求解。通过对它们的分析,为提出新的支持向量机算法提供了理论基础。(3)支持向量机原本是为二类分类问题设计的,现在许多研究人员将其推广到多类分类问题上。本文全面总结了目前存在的基于支持向量机的多类别分类方法,包括“一对多”方法、“一对一”方法、一次性求解方法、决策有向无环图方法、基于二叉树的支持向量机多类分类方法,比较了它们的优缺点及性能,提出了一种新的组合SVM的构架。(4)最后,结合文本分类过程和支持向量机方法,设计并实现了一个基于支持向量机新构架的中文文本分类系统。该系统分类效果的评价采用分类问题研究领域普遍采用的查准率、查全率和F测度值等指标。实验结果表明,该系统的这些评判指标总体上的平均值都很高,具有较好的分类效果。