论文部分内容阅读
分类问题中的不均衡问题目前是一个被国内外学者关注的(相对地)新问题。本文主要以分类不均衡问题和类不均衡问题的算法为主要研究内容,试图分别从数据预处理和模式选择这两个方面来改进和研究不均衡问题相关算法。目前解决分类不均衡问题主要基于抽样的技术,有两个相关研究方向,一个是非充分抽样技术,另一种是充分抽样技术。就一般的两分类问题而言,非充分抽样算法的主要思想是剔除样本点数目较多的那类样本点,使得两类样本点数目均衡。之前算法的主要缺点在于没能有效地利用剔除出来的样本点进行学习。本文主要基于半监督学习的思想来利用这些样本点提高算法的泛化能力。充分抽样技术的思想主要是复制样本点数目较少的那类样本点,之前的研究一直考虑数据结构是一种线性分布的情况下的复制算法。本文主要基于最小闭包球算法提出了一种充分抽样的算法来解决非线性数据结构的数据集中的充分抽样问题。本文最后根据类不均衡问题的特点,从模式选择的角度考虑,提出了一种利用η-one—class中参数 v的几何意义的算法来解决类不均衡问题。