论文部分内容阅读
在真实世界的分类问题中,不同的分类错误往往会带来显著不同的损失,而且不同类别样本的数目往往有显著的差别。传统的机器学习研究假定所有的分类错误会带来相同的损失,而且不同类别的样本数基本相同。因此,为了更好地解决真实世界的问题,代价敏感学习和类别不平衡学习成为目前国际机器学习界的两个研究热点。
本文对代价敏感学习和类别不平衡学习进行了研究,主要取得了以下一些创新成果:
1.提出一种基于κ—近邻的代价敏感学习算法,通过对示例加权的方式使高代价的样本具有较大的权值,从而使得分类器对代价敏感。实验结果表明,该算法可以有效地降低总体代价。
2.提出了两种基于集成的类别不平衡学习算法,通过充分利用训练样本,在保持欠取样方法的高效性的同时,弥补了欠取样方法不能充分利用训练样本的不足。研究表明,这两种算法均可有效提高欠取样方法的性能。
3.通过考察类别不平衡学习算法在解决代价敏感学习问题时的有效性,对代价敏感学习和类别不平衡学习之间的关系进行了深入研究。研究结果表明,代价敏感问题和类别不平衡问题具有不同的性质,或者对解决两类类别不平衡问题有效的算法难以有效解决多类问题。
4.对多类代价敏感学习进行了研究,分析了两类代价敏感学习方法直接扩展到多类问题上失效的原因,并给出了判别条件,在此基础上,提出了一种新的多类代价敏感学习方法。实验结果验证了理论分析,并显示出新方法可以有效地进行多类代价敏感学习。