论文部分内容阅读
邮件识别问题的本质属于数据挖掘中的分类问题。在现实生活中,经过邮件的过滤和屏蔽处理之后,不可避免地有部分垃圾邮件没有被滤掉。这些垃圾邮件中的某些包含恶意文件的邮件将产生巨大危害,而此类邮件的数量又远远少于其他类别,出现非平衡数据集问题。在这种情况下,分类器通常会倾向于将测试样本全部判别为多数类而忽视少数类样本,使分类器在少数类样本上效果变差。 解决此类非平衡数据集的分类问题常用的方法大致可以分为两类:基于数据层面和基于算法层面的方法。SMOTE(Synthetic Minority Over-samplingTEchnique)算法就是基于数据层面提出的过抽样方法,通过少数类样本之间的插值合成新的少数类样本以平衡数据集的分布。但是,SMOTE算法在合成样本的过程中存在一定的盲目性。为了进一步控制合成样本的质量,提高少数类样本的识别率,本文提出了一种基于改进SMOTE算法的再抽样方法。 这种方法分析了数据集的结构,对少数类的样本进行分类和识别,并从中选择一部分参与人工样本的合成。在合成的过程中,有选择的调整少数类的近邻,在近邻候选集合中去除距离较远的少数类样本,并允许部分距离少数类样本较近的多数类样本参与到新样本的合成过程中。结合欠抽样处理,对合成之后的数据集用ENN方法进行欠抽样,去掉多数类中的冗余样本或边界上的噪声数据。该算法结合了过抽样和欠抽样两种方法的优势,一方面通过自适应选择近邻的方法增加少数类样本的方式强调了少数类,另一方面对多数类进行适当程度的欠抽样,减少其规模,达到多数类和少数类样本在一定程度上的相对平衡,从而可以有效地处理非平衡数据集分类问题,提高分类器的性能。 本文通过对分类算法和抽样率参数设定的讨论,在基于改进SMOTE算法的再抽样方法的基础上,结合K近邻分类,构建分类模型,并选择适合非平衡数据集分类性能评价的准则,进行了实验验证和比较分析,验证了该算法的有效性。