论文部分内容阅读
数据挖掘是一门多学科交叉的应用技术,与机器学习和统计学紧密相关。目前数据挖掘中的挖掘算法主要是对机器学习或统计分析等领域中的常用技术的改进。分类即通过由经验数据训练得到的分类器预测未知数据的归属,是模式识别、机器学习、统计分析等领域的一个基本问题,也是一种最常见的数据挖掘任务。 分类可以看作基于经验数据的学习问题。不同于传统统计学的渐进理论,统计学习专门研究有限样本情况下的机器学习规律,它从理论上证明了实际风险的界是由经验风险和置信范围两部分构成的,并给出了控制置信范围的方法VC维。结构风险最小化归纳原则通过控制经验风险和置信范围来控制实际风险的界。支持向量机是在统计学习理论基础上发展起来的一种通用学习机器,其关键的思想是利用核函数把一个复杂的分类任务通过核函数映射使之转化成一个在高维特征空间中构造线性分类超平面的问题。离分类超平面最近的点到分类超平面的距离称为间隔,间隔最大的分类超平面具有最好的推广能力,称为最优分类超平面。而寻找最优分类超平面需要解决二次规划这样一个特殊的优化问题,通过优化,每个向量(样本)被赋予一个权值,权值不为0的向量称为支持向量,分类超平面是由支持向量构造的。由于现实世界的数据量一般比较大,因此对优化的效率要求较高,分解是第一种实用的可处理大数据集的技术,它把训练集分成固定大小的工作集和非工作集两部分,每次迭代只解决一个工作集中的子优化问题。分解与基于可行方向的优化技术结合为解决大数据集的支持向量机训练提供了一种可行的方法。 文中分析了支持向量机在抽油机泵参调整数据挖掘系统中的应用效果,与神经网络BP算法做了比较。结果表明它在一些主要性能指标上要优于BP算法。本文把支持向量机引入数据挖掘,可以吸引更多数据挖掘领域研究者的注意,为数据挖掘系统的设计提供一种新的选择。