论文部分内容阅读
随着现代科学技术的发展,如何从海量数据中挖掘出隐藏的信息、规律吸引了大量研究学者的关注。分类方法作为数据挖掘的一个重要手段被广泛应用于实际生活中,然而分类是受到很多因素制约的,除了分类器本身的原因,还包括样本复杂度、样本分布等原因,其中,样本分布对分类方法有着重要的影响。由于大多数的传统分类器建立在数据集中各个类别样本数分布相同的假设基础上,一旦数据集存在不平衡的样本分布,分类器就会明显偏向于强势类,使得弱势类难以被正确分类。不平衡数据集的分类问题不仅困扰着监督学习的方法,而且对半监督学习方法有着一样的问题,然而传统的不平衡数据集分类方法基本是在监督学习领域中,半监督学习领域中,关于不平数据集分类的研究非常少。由于半监督学习领域中,数据集的特点是少量的有标签数据和大量的无标签数据,且重采样方法需要判断分类边界而显得不太适合,因此,本文主要关注于半监督学习中不平衡数据集的分类研究。考虑到半监督学习领域中大量无标签数据的存在,本文提出一种基于样本信息量的迭代最近邻过采样(SI-INNO)方法,在分类开始前,通过样本的相似性,将一部分无标签数据转化为有标签数据,SI-INNO结合了样本的信息量来选择样本,更加合理地改进数据集的样本分布。这种方法不仅适用于二分类数据集,同样适用于多分类数据集。实验中,本文分析了SI-INNO算法在处理不平衡数据集时,有标签数据集和整体数据集不平衡度的关系。在大量的数据集上实验表明,结合本文所提算法对预处理数据集后,再使用半监督分类算法进行分类,可以改进原有算法在针对不平衡数据集分类时所出现的偏差问题。因此,结合了SI-INNO的半监督分类算法对不平衡数据集的分类有更好的鲁棒性。