代价敏感学习方法的研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:guoqy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的机器学习技术假设所有的错误代价相同。然而在真实世界的问题中,不同的错误往往会带来显著不同的损失。代价敏感学习试图降低总体代价而非简单的减少错误次数。由于此类技术在众多应用领域都有重要意义,目前代价敏感学习成为国际机器学习与数据挖掘领域的研究热点之一。本文对代价敏感学习进行研究,主要取得了如下创新成果:  (1)提出一种新的多类代价敏感学习方法  以往的代价敏感学习方法很多都是为两类问题设计的,使用这些方法解决多类问题时往往失效。本文对通用代价敏感学习方法的共性机理进行分析,指出其解决多类问题失效的原因,并提出一种多类代价敏感学习方法Rescalenew。该方法对多类代价矩阵进行判断,当为一致的代价矩阵时,直接将Rescaling方法扩展到多类;否则,则使用一对一的策略将多类问题分解为多个两类问题加以解决。实验结果验证了理论分析,并显示出当通过各种途径如阈值移动、采样和样本加权实现时,Rescalenew都可以有效地进行多类代价敏感学习。  (2)提出基于代价区间的代价敏感学习方法  以往的代价敏感学习假设给定的代价是精确的。然而在很多应用问题中,精确的代价值是难以给定的。本文针对代价值在一个区间内的情况做了问题形式化描述,提出了一种基于代价区间的的代价敏感学习方法CISVM。进一步的,本文针对代价分布已知的情况提出了一种通用方法CODIS。实验结果表明,CISVM显著优于假定代价区间的端点值或中值为真实代价并利用传统代价敏感学习方法;而通过利用代价分布信息学习,CODIS可以进一步降低总体代价。  (3)对类别不平衡性对代价敏感学习方法造成的影响进行研究  类别不平衡广泛存在于各种应用中并对算法的性能造成严重的影响。在很多应用中,代价敏感性和类别不平衡性往往并存。本文对类别不平衡性对代价敏感学习方法的影响进行研究。结论指出,当代价比较大时,应该同时考虑类别不平衡性和代价敏感性;而当代价比较小时,应该只考虑代价敏感性而不能考虑类别不平衡性,否则会引起性能下降。这与类别不平衡性对标准分类算法产生影响的性质非常不同。  (4)提出两种基于集成的类别不平衡学习方法  随机下采样是一种广泛使用的类别不平衡学习方法。它十分高效,但是由于使用了大类的一个子集因而忽略了其中潜在重要的信息。本文提出了两种类别不平衡学习方法EasyEnsemble和BalanceCascade,利用集成技术对大类别中的训练样本加以充分利用,弥补了下采样方法不能充分利用训练样本的不足。研究表明,和随机下采样相比,这两种方法保持了高效的优点,性能得到了显著提高,并且它们优于目前该领域的很多常用方法。
其他文献
数据挖掘是通过仔细分析大量数据来揭示有意义的新的关系、趋势和模式的过程,是信息处理技术研究领域的一项重要课题。它是指从大型数据库或数据仓库中提取隐含的、未知的、
随着信息技术的快速发展和人们对数字化知识及资源需求的不断增长,传统的搜索技术在海量数据面前已经遇到信息爆炸的瓶颈,通过基于关键词技术的搜索技术已经不能满足人们对知
本文尝试从本体语义的角度,通过使用本体语义知识来改进文献相似性测度,从而将本体语义与文献聚类相结合,目的是为了提高文献的聚类效果。为此本文提出了一种基于主题词表的
随着计算机技术的发展和数据库的广泛应用,企业信息系统中的“信息孤岛”问题越来越严重。异构数据源集成技术作为企业获取数据的重要方法,可以完成数据从数据源向目标数据库
图纸生成与标注技术,是指基于产品设计成果绘制图纸内容、生成尺寸标注的技术。本文研究的基于三维场景的室内建筑图纸自动生成与标注,是指基于具备完整信息的三维室内建筑场景
无线通信技术以及移动嵌入式设备制造技术的发展,使得移动用户可以通过无线网络随时随地的接入Internet接收信息以及发布信息,随着无线网络的覆盖范围更大,用户客户端更加便携,用
随着虚拟化技术的发展,近年来传统数据中心正朝着虚拟化数据中心方向转变,本文研究虚拟化数据中心的资源管理技术。   一类虚拟化数据中心将节点计算资源封装成虚拟机实例供
处理器和内存之间的性能差距正变得越来越大,使内存成为整个计算机系统的性能瓶颈之一。提高数据局部性可以有效地利用处理器高速缓存,是缓解内存和处理器性能差距的有效手段。
视频和图像中的标识包含着重要的语义信息,标识检测对视频图像内容理解、检索与过滤、知识产权保护等都具有十分重要的意义。标识可分为嵌入标识和实景标识。嵌入标识是人工添
在面向层次管理的科学计算网格环境下,高性能计算机通过本地账号的方式为网格提供资源,网格用户通过应用的方式使用资源。基于该背景,本文对资源组织、用户权限管理、可用计算资