非平衡数据集的再抽样方法及在邮件识别中的应用

来源 :中国人民大学 | 被引量 : 0次 | 上传用户:chen009123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
邮件识别问题的本质属于数据挖掘中的分类问题。在现实生活中,经过邮件的过滤和屏蔽处理之后,不可避免地有部分垃圾邮件没有被滤掉。这些垃圾邮件中的某些包含恶意文件的邮件将产生巨大危害,而此类邮件的数量又远远少于其他类别,出现非平衡数据集问题。在这种情况下,分类器通常会倾向于将测试样本全部判别为多数类而忽视少数类样本,使分类器在少数类样本上效果变差。  解决此类非平衡数据集的分类问题常用的方法大致可以分为两类:基于数据层面和基于算法层面的方法。SMOTE(Synthetic Minority Over-samplingTEchnique)算法就是基于数据层面提出的过抽样方法,通过少数类样本之间的插值合成新的少数类样本以平衡数据集的分布。但是,SMOTE算法在合成样本的过程中存在一定的盲目性。为了进一步控制合成样本的质量,提高少数类样本的识别率,本文提出了一种基于改进SMOTE算法的再抽样方法。  这种方法分析了数据集的结构,对少数类的样本进行分类和识别,并从中选择一部分参与人工样本的合成。在合成的过程中,有选择的调整少数类的近邻,在近邻候选集合中去除距离较远的少数类样本,并允许部分距离少数类样本较近的多数类样本参与到新样本的合成过程中。结合欠抽样处理,对合成之后的数据集用ENN方法进行欠抽样,去掉多数类中的冗余样本或边界上的噪声数据。该算法结合了过抽样和欠抽样两种方法的优势,一方面通过自适应选择近邻的方法增加少数类样本的方式强调了少数类,另一方面对多数类进行适当程度的欠抽样,减少其规模,达到多数类和少数类样本在一定程度上的相对平衡,从而可以有效地处理非平衡数据集分类问题,提高分类器的性能。  本文通过对分类算法和抽样率参数设定的讨论,在基于改进SMOTE算法的再抽样方法的基础上,结合K近邻分类,构建分类模型,并选择适合非平衡数据集分类性能评价的准则,进行了实验验证和比较分析,验证了该算法的有效性。
其他文献
敬爱的周恩来总理离开我们已34年,他的音容笑貌,依然时时浮现在我的眼前。他谦虚谨慎、平易近人、以身作则、艰苦朴素的作风使我难以忘怀,他多年来对我们的谆谆教诲,依然在我
本文研究分为两个部分,在第一个部分,研究权衡理论以及优序融资理论对于中国上市公司的现金持有率大小的解释力,在总结了已有研究成果的基础上,设计了新的研究框架,即控制公司治理
风险投资是由专业投资者投入到新兴的、迅速发展的、有巨大竞争潜力的企业中的一种权益资本。其本质内涵是“投资于创业风险企业,并通过资本经营、服务培育和辅导风险企业创业
史料载,范仲淹在扬州任职时,曾在吴县买了块风水宝地,阴阳先生对他说,在这里修造家宅必将子孙兴旺、卿相不断。可范仲淹听后大笑说:“吾家有其贵,孰若天下之士咸教育 Histor
在我国经济体制转轨的背景下,我国经济快速发展,居民收入水平有了较大的提高,但是我国的基尼系数却也一直在增加,已超过了国际公认的警戒线0.4,表明我国的收入差距过大,而在
本文对CSIR采矿技术组正在开展的一个整体研究计划成果进行了评述。该计划的目标在于对集中采矿进行重大改革,任其工作面的推进速度比现有速度提高20倍。考虑了连续无爆破采矿
临江市委把加强农村基层组织建设“三项工程”作为2010年工作开篇布局的首要任务,集各方智慧科学谋划,聚上下力量快速推动,从而使“三项工程”在临江大地呈现出良好的发展态
针对义马北露天煤矿现开拓运输系统发展到后期存在的主要问题,结合我矿南部边坡问题提出了3种采矿及排土工程方案,探讨其中的最佳开采方案。 In view of the main problems ex
套利理论作为现代金融学研究的基石,在其产生以来的几十年中经过许多经济学家的不断探索,目前已经发展成为有着丰富内容和完整体系的资产定价理论,逐步演化出跨商品、跨市场、跨
本文搜集了我国煤矿测量生产实践中发生的一些典型失误或事故事例,根据其性质进行分类,并对其产生的原因作了分析,提出了预防的措施。 This paper collects some typical mista