论文部分内容阅读
传统的机器学习技术假设所有的错误代价相同。然而在真实世界的问题中,不同的错误往往会带来显著不同的损失。代价敏感学习试图降低总体代价而非简单的减少错误次数。由于此类技术在众多应用领域都有重要意义,目前代价敏感学习成为国际机器学习与数据挖掘领域的研究热点之一。本文对代价敏感学习进行研究,主要取得了如下创新成果: (1)提出一种新的多类代价敏感学习方法 以往的代价敏感学习方法很多都是为两类问题设计的,使用这些方法解决多类问题时往往失效。本文对通用代价敏感学习方法的共性机理进行分析,指出其解决多类问题失效的原因,并提出一种多类代价敏感学习方法Rescalenew。该方法对多类代价矩阵进行判断,当为一致的代价矩阵时,直接将Rescaling方法扩展到多类;否则,则使用一对一的策略将多类问题分解为多个两类问题加以解决。实验结果验证了理论分析,并显示出当通过各种途径如阈值移动、采样和样本加权实现时,Rescalenew都可以有效地进行多类代价敏感学习。 (2)提出基于代价区间的代价敏感学习方法 以往的代价敏感学习假设给定的代价是精确的。然而在很多应用问题中,精确的代价值是难以给定的。本文针对代价值在一个区间内的情况做了问题形式化描述,提出了一种基于代价区间的的代价敏感学习方法CISVM。进一步的,本文针对代价分布已知的情况提出了一种通用方法CODIS。实验结果表明,CISVM显著优于假定代价区间的端点值或中值为真实代价并利用传统代价敏感学习方法;而通过利用代价分布信息学习,CODIS可以进一步降低总体代价。 (3)对类别不平衡性对代价敏感学习方法造成的影响进行研究 类别不平衡广泛存在于各种应用中并对算法的性能造成严重的影响。在很多应用中,代价敏感性和类别不平衡性往往并存。本文对类别不平衡性对代价敏感学习方法的影响进行研究。结论指出,当代价比较大时,应该同时考虑类别不平衡性和代价敏感性;而当代价比较小时,应该只考虑代价敏感性而不能考虑类别不平衡性,否则会引起性能下降。这与类别不平衡性对标准分类算法产生影响的性质非常不同。 (4)提出两种基于集成的类别不平衡学习方法 随机下采样是一种广泛使用的类别不平衡学习方法。它十分高效,但是由于使用了大类的一个子集因而忽略了其中潜在重要的信息。本文提出了两种类别不平衡学习方法EasyEnsemble和BalanceCascade,利用集成技术对大类别中的训练样本加以充分利用,弥补了下采样方法不能充分利用训练样本的不足。研究表明,和随机下采样相比,这两种方法保持了高效的优点,性能得到了显著提高,并且它们优于目前该领域的很多常用方法。