论文部分内容阅读
随着计算机和信息技术的快速发展,人们需要花费昂贵的代价收集、存储和处理海量的数据。如何从中发现有用的信息,已经成为一个迫切需要解决的问题,数据挖掘技术在这种背景下应运而生。数据挖掘就是在数据库中发现有用的、潜在的、最终可理解的模式的非平凡过程。它是一门交叉学科,涉及机器学习、数学规划、数理统计、模式识别等相关技术。 数学规划在机器学习、网络问题、工程机械学等领域有着广泛的应用。其和数据挖掘技术的结合已使大规模和高复杂性的问题的解决成为可能,并在特征提取、聚类和回归等方面有很重要的应用。支持向量机是数学规划在数据挖掘领域的一个重要应用,是由Vapnik等人根据统计学习理论提出的一种新的机器学习方法。 本文主要研究了支持向量机模型和算法中的几个问题。首先对分类中分离错误最小化问题的模型进行分析。鉴于它的不可微性,提出利用极大熵函数将问题转化成易于用现有优化算法直接计算的形式,并通过算法实现得到了较好的逼近效果。 另外目前支持向量机模型性能研究主要集中在一次损失函数的情况,对于二次损失函数支持向量机性能了解很少。本文对两种不同损失函数支持向量机应用于普通分类和特殊的非平衡分类的性能差别给出了分析,得到了较一般的结论。并基于支持向量机分类原理的分析提出了一种基于拟牛顿(DFP)方法的非平衡分类问题的分类器改进算法。