代价敏感支持向量机及其应用

来源 :中国地质大学(武汉) | 被引量 : 0次 | 上传用户:zhy724458069
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘技术经过多年的发展,已经逐渐建立起系统的挖掘理论和成熟的挖掘技术。形成了以关联规则挖掘、分类规则挖掘、聚类规则挖掘为主要形式的,以数据库技术、统计学、人工智能、可视化技术和信息技术为主要工具的多学科交叉的应用技术。从最初的商业应用逐渐扩展到医疗、金融、生物、电信、军事、体育等诸多领域。数据挖掘成为越来越多的科学家、研究人员、工程应用人员、商人、医生所关注的对象。分类是数据挖掘的一种非常重要的方法。分类的概念是在已有数据的基础上学会一个分类函数或构造出一个分类模型。该函数或模型能够把数据库中的数据纪录映射到给定类别中的某一个,从而可以应用于数据预测。作为数据挖掘的一个重要分支,分类算法在过去的十多年中引起很多来自不同领域的学者的注意,学者们提出了以信息论为基础的决策树算法、以概率论为基础的贝叶斯分类方法,以神经科学为基础的神经网络方法,以统计学习理论为基础的支持向量机算法等等。 标准的分类器设计一般基于最小化错误率,但是在实际应用中,不同类型的错分往往具有不同的代价,因此直接使用传统分类方法就无法取得良好的分类和预测结果。此外,在数据挖掘学习中,许多数据集是不平衡的,分类算法对这类数据进行分类的性能不尽人意,因为少数类样本通常比普通样本难以识别,而且大多数数据挖掘算法对于处理少数类样本有很大困难。这些情况对传统的分类器提出了挑战,由此,代价敏感学习受到了越来越广泛的关注。代价敏感学习作为机器学习领域的一个新的研究热点,研究了对不同类型的错分引入不同的惩罚代价,并研究在什么机制下保证得到的分类器使总体错分代价最小。 统计学习理论(Statistical Learning Theory或SLT)是一种专门研究小样本情况下机器学习规律的理论,它具有完备的理论基础。建立在统计学习理论基础上的支持向量机(Support Vector Machine或SVM),由于它具有许多优越的性能,所以近年来受到了广泛的重视。目前已成功应用于许多领域。SVM是基于小样本学习的理论。它能够寻找小样本情况下学习问题的最优解,不需要利用样本趋向于无穷大的渐进性条件。因而即使是小样本数据,同样能得到较好的效果。构造SVM的过程实际上是求解一个凸二次优化问题,理论上可以得到全局最优解不存在局部最优的问题:在结构上,SVM类似于三层前馈神经网络,但通过求解凸二次优化问题,可以同时得到隐层节点数和权向量,因而支持向量机的网络结构是根据训练样本自动确定的:核函数的引入,可以将非线性问题转化为线性问题,并且有效的解决了“维数灾难”。虽然具备以上优点,但SVM算法不具有代价敏感性,本文即是以代价敏感支持向量机算法分类作为主要对象,研究代价敏感支持向量机在不同数据集上的表现。本文所关注的问题在支持向量机和代价敏感领域均是新出现的热点基础理论问题,是数据挖掘研究的重要方向。本文通过标准的支持向量机算法实现代价敏感,将明显提高分类器的性能,在商业、医疗、金融等领域具有重要的实用价值和广泛的应用前景。本文针对如何实现代价敏感SVM算法及其应用等相关问题展开研究,主要做了以下几方面的工作: 1.分析研究了代价敏感学习当前研究状况,对代价敏感SVM的实现方法以及面临的问题做了总结。 2.研究实现了通过样本空间重构方式而实现代价敏感的SVM算法,研究并实现了CSBO,CSB1,CSB2,AdaCost,AdaCostB1,AdaCostB2,MetaCost等7种代价敏感SVM算法,将其应用于8个数据集,进行了全面的分析,实验结果表明,7个算法在不同程度上均取得了良好的结果,提高了分类的可靠性。除此之外,还将算法应用于入侵检测应用中,在入侵检测数据集上分析了各个算法的性能,结果表明除了CSB1-SW算法产生了负面效应外,其余算法均有效的改善了分类器的性能。 3.研究并改进了嵌入拒绝域的SVM分类算法。嵌入拒绝域的SVM算法是直接改进分类器而实现的代价敏感算法,拒识区域将在训练过程中,由学习算法决定。本文结合SRM原则研究分析此算法,并且添加代价因子,使其在代价敏感方面的性能更为完善。 4.分析比较过取样,欠取样以及基于不同惩罚参数的代价敏感算法在不同数据集上的表现。在此过程中实现了Lin等人提出的代价敏感SVM算法。实验结果表现,在一定程度上,取样方法的性能仍然优于代价敏感算法,进一步提高代价敏感算法的性能,以及研究取样方法是否能在某些方面代替代价敏感算法是下一步的研究内容。
其他文献
关系推断是指利用知识图谱现有的实体间关系推断或推理实体间隐含的关系。尽管现有知识图谱存储着上百万关系类型、上千万实体,他们都存在关系缺失和覆盖率不全的问题。而由于
文档管理是一个研究比较成熟的课题,在网络协同服务环境下,文档管理被赋予了新的意义,本文分析在此特定环境下的文档管理特点,设计并开发了一套文档管理系统。 本课题源自网络
计算机技术在地质制图上的应用,已成为地质制图的一个发展方向和工作平台。随着计算机地质制图技术的迅速发展和广泛应用,地质制图实现了一场很大的革命。 目前我国计算机制
道路设计规划是一项涉及多个专业的综合性工作,设计人员需要对地形,地质,水文等自然环境进行综合分析,以便设计出满足环境、经济、技术等各方面要求的道路。传统的设计方法是用平
地理信息系统发展的几十年来,得到了越来越广泛的应用,逐渐成为计算机科学、地理学、测量与遥感、制图学等多学科综合发展的产物。我国与世界上的一些先进国家相比,在空间信息资
当前IP网络因宽带化、多媒体化要求,迫切需要一种技术解决服务质量和支持新型增值业务。多协议标签交换(MPLS)技术综合利用网络核心的交换技术和网络边缘的IP路由技术的优点,成
2D图形引擎作为2D游戏引擎中最重要的一个模块,对2D游戏引擎的开发来说是至关重要,图形引擎的功能就是负责游戏画面的实时渲染操作,它的强大与否直接决定着最终的输出质量,因此可
数据挖掘是一门多个学科交叉而形成的新兴研究领域,是对传统数据分析方法的扩充与发展。数据挖掘技术领域已逐渐建立起一套系统的理论和成熟的方法,以关联规则挖掘、分类规则挖
自上个世纪八十年代以来,我国高速公路建设发展迅速,目前已经初步完成高速公路网的建设,随之而来的是大量的养护工作。在国外,路面管理系统已经被证明是一个统筹养护资金分配。维
在今天的互联网上进行大规模的数据分发是一个常见的应用,传统的C/S架构对于这种应用来说,成本高昂,可扩展性差。近年来,出现了基于P2P的分发技术,它允许接受服务的客户端也共享它