论文部分内容阅读
数据挖掘技术经过多年的发展,已经逐渐建立起系统的挖掘理论和成熟的挖掘技术。形成了以关联规则挖掘、分类规则挖掘、聚类规则挖掘为主要形式的,以数据库技术、统计学、人工智能、可视化技术和信息技术为主要工具的多学科交叉的应用技术。从最初的商业应用逐渐扩展到医疗、金融、生物、电信、军事、体育等诸多领域。数据挖掘成为越来越多的科学家、研究人员、工程应用人员、商人、医生所关注的对象。分类是数据挖掘的一种非常重要的方法。分类的概念是在已有数据的基础上学会一个分类函数或构造出一个分类模型。该函数或模型能够把数据库中的数据纪录映射到给定类别中的某一个,从而可以应用于数据预测。作为数据挖掘的一个重要分支,分类算法在过去的十多年中引起很多来自不同领域的学者的注意,学者们提出了以信息论为基础的决策树算法、以概率论为基础的贝叶斯分类方法,以神经科学为基础的神经网络方法,以统计学习理论为基础的支持向量机算法等等。
标准的分类器设计一般基于最小化错误率,但是在实际应用中,不同类型的错分往往具有不同的代价,因此直接使用传统分类方法就无法取得良好的分类和预测结果。此外,在数据挖掘学习中,许多数据集是不平衡的,分类算法对这类数据进行分类的性能不尽人意,因为少数类样本通常比普通样本难以识别,而且大多数数据挖掘算法对于处理少数类样本有很大困难。这些情况对传统的分类器提出了挑战,由此,代价敏感学习受到了越来越广泛的关注。代价敏感学习作为机器学习领域的一个新的研究热点,研究了对不同类型的错分引入不同的惩罚代价,并研究在什么机制下保证得到的分类器使总体错分代价最小。
统计学习理论(Statistical Learning Theory或SLT)是一种专门研究小样本情况下机器学习规律的理论,它具有完备的理论基础。建立在统计学习理论基础上的支持向量机(Support Vector Machine或SVM),由于它具有许多优越的性能,所以近年来受到了广泛的重视。目前已成功应用于许多领域。SVM是基于小样本学习的理论。它能够寻找小样本情况下学习问题的最优解,不需要利用样本趋向于无穷大的渐进性条件。因而即使是小样本数据,同样能得到较好的效果。构造SVM的过程实际上是求解一个凸二次优化问题,理论上可以得到全局最优解不存在局部最优的问题:在结构上,SVM类似于三层前馈神经网络,但通过求解凸二次优化问题,可以同时得到隐层节点数和权向量,因而支持向量机的网络结构是根据训练样本自动确定的:核函数的引入,可以将非线性问题转化为线性问题,并且有效的解决了“维数灾难”。虽然具备以上优点,但SVM算法不具有代价敏感性,本文即是以代价敏感支持向量机算法分类作为主要对象,研究代价敏感支持向量机在不同数据集上的表现。本文所关注的问题在支持向量机和代价敏感领域均是新出现的热点基础理论问题,是数据挖掘研究的重要方向。本文通过标准的支持向量机算法实现代价敏感,将明显提高分类器的性能,在商业、医疗、金融等领域具有重要的实用价值和广泛的应用前景。本文针对如何实现代价敏感SVM算法及其应用等相关问题展开研究,主要做了以下几方面的工作: 1.分析研究了代价敏感学习当前研究状况,对代价敏感SVM的实现方法以及面临的问题做了总结。
2.研究实现了通过样本空间重构方式而实现代价敏感的SVM算法,研究并实现了CSBO,CSB1,CSB2,AdaCost,AdaCostB1,AdaCostB2,MetaCost等7种代价敏感SVM算法,将其应用于8个数据集,进行了全面的分析,实验结果表明,7个算法在不同程度上均取得了良好的结果,提高了分类的可靠性。除此之外,还将算法应用于入侵检测应用中,在入侵检测数据集上分析了各个算法的性能,结果表明除了CSB1-SW算法产生了负面效应外,其余算法均有效的改善了分类器的性能。
3.研究并改进了嵌入拒绝域的SVM分类算法。嵌入拒绝域的SVM算法是直接改进分类器而实现的代价敏感算法,拒识区域将在训练过程中,由学习算法决定。本文结合SRM原则研究分析此算法,并且添加代价因子,使其在代价敏感方面的性能更为完善。
4.分析比较过取样,欠取样以及基于不同惩罚参数的代价敏感算法在不同数据集上的表现。在此过程中实现了Lin等人提出的代价敏感SVM算法。实验结果表现,在一定程度上,取样方法的性能仍然优于代价敏感算法,进一步提高代价敏感算法的性能,以及研究取样方法是否能在某些方面代替代价敏感算法是下一步的研究内容。