基于结构化SVM的直接优化不平衡准则算法研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:hhzj1015
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着现代计算机技术的高速发展,在科学研究和社会生活等各个领域中积累了大量的数据,为各种不同应用提供了重要的支持。与此同时如何从这些数据中发现更多的有用信息也成为人们的一个迫切需求,数据挖掘和机器学习的出现很好地满足了这一需求。作为数据挖掘中的一个基本方法:分类学习已经引起广大科研工作者的关注,而二分类更是由于其广泛的应用基础成为其中的研究重点,但是在真实的应用中,很多二分类场景都是不平衡的,已有的平衡二分类算法难以直接使用,对此,近些年人们提出研究面向不平衡数据集的二分类算法,其基本思路分为面向数据的改进和面向算法的改进;而后者更是由于不需要对数据做预处理成为当前研究的重点。本文就是在此基础上,以SVM为工具,重点研究了基于结构化SVM的不平衡二分类算法,文中首先介绍了基于SVM的二分类算法以及不平衡二分类的应用背景,然后分析了不平衡二分类算法的研究现状,并在此基础上提出采用基于直接优化不平衡准则的方法来构造面向不平衡数据的改进SVM算法。不同于已有基于SVM的改进算法,本文提出将不平衡二分类问题看成一个学习分类队列的过程,并提出使用结构化SVM进行求解。本文的主要工作有:(1)针对AM,QM等不平衡评价准则,提出使用基于n-slack的结构化SVM作为算法框架,并定义了面向AM和QM的目标函数。针对目标函数的非光滑难以直接优化,提出使用割平面算法进行求解,使得算法的迭代次数为o(1/s2),其中ε为允许的错误。同时针对AM,QM算法内部“寻找最大最违约”子过程,分别设计了两个高效的算法,其时间复杂度均仅为o(mlogm)。不平衡数据集上的实验表明:所提算法不仅明显优于传统SVM算法,且相比起面向数据的改进算法也更加有效。(2)针对GTP/PR评估标准,提出一个基于1-slack结构化SVM的直接优化算法。算法首先定义了面向GTP/PR的目标函数,该目标比已有面向F1的目标函数更紧凑,针对新目标函数非光滑,提出使用基于1-slack的割平面算法进行求解,使得算法的迭代次数仅为o(1/ε),也更适合大规模的应用场景。面向大规模不平衡数据集的实验结果表明,所提算法不仅优于已有其他的改进算法,且算法的效率更加高效。
其他文献
随着微电子和计算机技术的飞速发展,嵌入式系统被应用到众多领域。嵌入式已经成为整个信息产业中的耀眼明星,所以各大公司也都推出了适合各种应用的处理器来抢占嵌入式芯片市
伴随着信息产业的高速发展,当人们面对海量的数据信息时希望通过对数据进行更深层次的分析,以便挖掘出大量隐藏在数据背后的重要信息。但传统的数据管理方法不但无法发现数据
为了提升多通道设备与Linux系统的数据交互能力,本文设计并实现一种基于PCIExpress总线和DMA Ringbuffer模型的多通道设备驱动。本文分析了PCI Express总线设备DMA传输的最大
二十世纪90年代,CAD技术正从以实体造型为核心的“几何CAD”向以语义特征造型为中心的“应用CAD”发展。作为CAD系统的重要部分,约束求解技术得到越来越多的重视,提出了各种
随着我国经济的快速发展,国内的汽车拥有量也在飞速增加,对于每个家庭来说,拥有一辆汽车已经不是难事。但同时,交通事故也随着汽车的增加而增加,对国家、社会以及每一个家庭来说都
面对当代企业运作的金科玉律“利润最大化,成本最小化”,软件开发对生命周期的要求越来越高。在大规模金融系统再造中,迭代模型成为很多开发团队的首选模式。然后对于金融遗
随着医学影像诊断技术的逐渐成熟,大量的医学图像数据随之产生。怎样对大量的图像数据进行管理并合理的应用于临床诊断过程中,是医学领域面对的主要难题之一。在这这种情况下
近年来,多目标优化方法已被广泛运用到工程、科学研究等各个领域。这类方法最终的目的是为了获得均匀分布在整个Pareto前沿面上的一组最优解。然而,在实际的多目标优化工程问
随着当前网络所要处理的实时业务的不断增多,网络能够提供的服务质量问题越来越多地受到人们的关注。路由问题作为网络数据传输的重要方面,它性能的好坏直接关系到整个网络的
基于传统PC机的多媒体网络化图像监控系统作为一种重要的安防手段已经有很长的发展历史,在安全监控、生产过程监控、住宅小区监控等领域,已经被广泛应用。随着网络传输技术、