基于混合采样的非平衡数据分类算法研究

来源 :山西大学 | 被引量 : 6次 | 上传用户:chelseainter
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在机器学习和数据挖掘领域中,分类是重要的研究内容之一,其目的是构造一个分类模型,将数据集中的数据划分到给定类别中的某一个。由于传统的分类算法没有考虑数据的非平衡性,使得其在处理非平衡数据分类问题上面临着巨大的挑战。例如在医疗诊断、欺诈电话检测等问题中,关注的事件在所有数据记录中占比都极小,但是将其错误分类却会带来无法估量的代价。在非平衡数据中对少数类的正确分类往往比多数类更重要,如何对非平衡数据集进行正确分类,提高少数类的分类准确率成为分类问题中研究的重点。
  目前,非平衡数据分类问题在理论和实践上都受到高度重视。很多针对非平衡数据的分类算法从不同的处理角度被提出。非平衡数据集分类问题的研究方法主要包括算法改进和数据集重构两类。数据层面通常使用的方法有过采样和欠采样方法,但使用单一的采样算法可能造成少数类样本过拟合或者丢失含有重要信息的样本。因此,本文针对基于混合采样的非平衡数据分类算法进行了深入的研究,主要内容包括以下两个方面:
  (1)提出了一种基于分类超平面的混合采样算法。该算法旨在克服SVM算法在处理非平衡数据时分类超平面容易偏向少数类样本的问题。首先利用SVM算法得到分类超平面;然后迭代进行混合采样,主要包括:删除离分类超平面较远的一些多数类样本;对靠近真实类边界的少数类样本用SMOTE过采样,使分类超平面向着真实类边界方向偏移。实验结果表明该算法相比其他相关算法在F-value值和G-mean值均有较大提高。
  (2)提出了一种基于近邻分布的混合采样算法。该算法通过改变样本的分布来平衡少数类与多数类样本的数量。在利用Borderline-SMOTE算法构造新样本时,对边界样本的k个近邻的重要度作出判断,优先选择适于进行新样本生成的近邻,从而更精确的生成少数类样本;同时,利用基于距离的欠采样方法删除一些贡献度较小的多数类样本,构造出一个较为平衡的新的数据样本集合。实验结果表明该算法相比其他相关算法在F-value值和G-mean值均有较大提高。
  本文从数据层面的角度出发,针对单一的采样算法可能存在的问题,提出了两种基于混合采样的非平衡数据分类算法,提升了少数类样本的分类精度,为非平衡数据分析提供了技术支撑。
其他文献
淋巴细胞作为重要的免疫细胞在抵御抗原入侵过程中发挥关键作用。由于存在于血流环境中,淋巴细胞免疫功能的实现需要首先黏附到炎症部位附近的血管壁,为其跨越血管壁屏障逐步迁移到炎症处做准备。这是一个多步的级联反应过程,涉及到多种生物学因子以及物理因素的共同作用。  目前的研究表明,炎症部位附近的血管内壁表达的趋化因子和免疫球蛋白类分子(选择素)在淋巴细胞黏附的过程分钟发挥重要作用。一般认为选择素介导了淋巴
学位
干细胞的分化不仅遵循生物和化学信号的指示,还遵循机械力指示,如:流体剪切力和基底应力。这两种机械力刺激下干细胞会产生分化,但由这两种机械力刺激触发的即时基因转录调控机制还不明确。  热休克蛋白(HSP)家族,HSP70在应对各种应激(如热应激和氧化应激)时表现出快速和最大的转录增加,表明HSP70蛋白是对抗应激的基本防御措施的一部分。热休克反应也被认为是由压缩载荷引起的,这表明热休克反应可能在感知
In this presentation I shall focus on the new concepts of the aetiology and pathogenesis of peri-implant diseases leading to the definition and dassificafion of Peri-implant mucositis and Periimplanti
本文首先对炉内燃烧及NO生成的模拟方法进行全面综述及分析,然后采用CFD商业软件对山东石横电厂300MW四角切圆锅炉进行数值模拟,得到不同工况下流场、温度场和组分场,并以此为基础,计算得到了NO的生成及分布情况.通过对结果的进一步分析,得到了燃料型NO和热力型NO在总NO中所占的比例、NO的生成与温度场和组分场的对应关系、NO的生成随负荷的变化情况以及配置燃尽风的分级燃烧方式对降低NO的有效程度.
[db:内容简介]
  本文以实现基于数字信号处理器的无位置传感器无刷直流电机的控制为目的,在对国内外研究深入分析的基础上,对此进行了深入的研究。首先对无位置传感器无刷直流电机的各种控制方法进行了全面的分析对比,在比较各种方法的优缺点后决定采用反电势法检测转子位置,系统之转速、电流双闭环控制和位置检测都由软件来完成。其次,对于电机在低速时难以检测其反电势的问题,本方案采用开环启动的方法,保证了电机正确换相与电机的可靠
牛津互联网研究中心是互联网与社会领域中跨学科研究的前沿机构,本调查报告是该中心的核心研究报告。作为牛津大学社会科学院系的一个部分,牛津互联网研究中心(OII)聚焦互联网对社会的塑造和影响,以及互联网相关政策的研究和教学。调查报告简介牛津互联网调查是牛津互联网研究中心自2003年开始的一项关于互联网的
随着经济社会发展,人民群众的法律服务需求越来越强烈,但实际生活中却存在着公共法律服务不够精准、分布不均衡、便捷度不高等现象。加强公共法律服务平台建设,积极构建城乡全覆盖、功能齐配备、快捷效率高的公共法律服务网络,可以为广大群众提供精准度更高、更普惠便民的公共法律服务。目前,全国范围内都在响应上级工作部署,大力推进公共法律服务平台建设,但现有这方面的研究并不多,少量关于公共法律服务体系的研究更多的是
黄曲霉HA5800为出发菌株,研究探讨了不同碳源、氮源、无机盐类以及温度等因素对糖质原料直接发酵生产L-苹果酸的影响,产L-苹果酸突变株黄曲霉HA5800适合于多种原料的L-苹果酸发酵,如液化淀粉、脱脂玉米粉、葡萄糖、淀粉水解糖等;氮源以玉米浆与硫酸铵配合使用为最佳;实验确定了较优培养基组成和发酵工艺条件,适宜的发酵温度为34-36℃;培养基中添加碳酸钙是L-苹果酸有效积累的必要条件,初糖控制在1
复杂网络在自然界中普遍存在如社会网络、生物网络、电力网络等,复杂网络中对网络连通性有重要影响的那些节点通常被称为关键节点。关键节点识别问题(critical node detection problem,CNDP)是寻找特定条件下对网络连通性影响最大的节点子集的一类优化问题。识别网络中的关键节点是分析与理解网络特性、结构以及功能的重要方式,本文基于网络局部特征对关键节点识别问题进行研究,主要工作有