基于间隔分布提升算法的非平衡数据分类

来源 :河北大学 | 被引量 : 0次 | 上传用户:songfeng816
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在机器学习领域中,解决分类问题的算法针对的大多都是基于均匀分布的平衡数据的分类问题,而对于非平衡数据分类问题,达不到理想的分类效果。在实际的应用中,少数类数据的分类是非常重要的,如医学诊断、风险管理等。因此,研究非平衡数据分类问题是非常有意义的。本文研究的是两类非平衡数据分类问题。主要分为以下三部分工作:首先,提出了一种基于代价敏感的Ada Boostv算法。该算法在已有的Ada Boostv算法的基础上,做了进一步改进以处理非平衡数据分类问题。在样本权重中引入一种自适应代价敏感函数,使得分类器更加关注少数类样本。根据样本权重公式以及Ada Boostv算法关于最优间隔的分类误差率上界,推导出一种新的基分类器权重策略,该策略充分考虑了非平衡数据分类问题以及最优间隔。为了进一步处理非平衡分类问题,该算法采用改进的SVM模型,求解方法为SVRG方法以提高算法的收敛速度。其次,提出了一种基于欠采样的Ada Boostv算法。该算法同样在已有的Ada Boostv算法的基础上,采用了两种基于邻域的欠采样方法用于处理非平衡数据的类重叠问题。第一种欠采样方法即共同近邻搜索欠采样方法,该方法适用于少数类样本的数据密度大于等于多数类样本时,多数类样本为负类样本,少数类样本为正类样本。其主要思想是寻找任意两个正类样本的共同负近邻,将其视为重叠的负类样本删除。第二种欠采样方法即递归搜索欠采样方法。该方法是在第一种欠采样方法的基础上进一步删除多数类样本,适用于少数类样本的数据密度远远小于多数类样本的情况。为了进一步处理非平衡数据分类问题,该算法采用改进的SVM优化模型,求解方法为SVRG方法。最后,提出了一种基于代价敏感的惩罚Ada Boost算法。该算法在已有的基于间隔分布的惩罚Ada Boost算法的基础上作了进一步改进以处理非平衡数据分类问题。该算法在其样本权重中引入一种新的自适应代价敏感函数,该函数考虑了样本类别、样本的分类错误率以及噪声样本的影响。为了进一步处理非平衡数据分类问题,该算法仍然采用改进的SVM优化模型,求解方法为SVRG方法。
其他文献
本文旨在调查阅读推广活动中的读者从众行为特点,厘清读者从众行为对活动参与意愿的影响效果,为公共图书馆阅读推广活动设计、宣传提供参考。研究基于从众理论和阅读推广活动实践案例推演得出读者从众行为模型,以多个省份、城市公共图书馆为样本基地,在馆长和馆员的帮助下,对参加阅读推广活动的读者开展线上和线下问卷调查。问卷以读者从众行为模型为框架,共包括社会人口学资料统计和从众行为调查两部分。应用SPSS21.0
在当今计算机网络时代,微博、淘宝、京东等应用平台给人们的生活带来了很大的便利,与此同时,大量的评论与观点由此而生。用户的评论与观点代表着用户的情感倾向。掌握用户的情感倾向,就可以有效地为用户推荐或规避某些话题或者商品。如何从这些内容中把重要的情感信息挖掘出来显得尤为重要。本文针对文本的情感分析任务,提出了一种情感分析残差网络模型,该模型充分利用了相似文本之间的特征关联性,在情感分析任务上取得了良好
伴随着系统仿真和控制芯片性能的日趋发展,对于现在的控制需求来说仅仅依靠纯数学仿真显得力不从心。由此而来的半实物仿真技术逐渐得到了普及,因它兼具纯数学仿真和物理试验的特性,所以在工业界得到了广泛的应用。本文通过对半实物仿真技术进行分析与研究,结合学校中的实际情况,在保证性能的前提下,控制设计成本,搭建了基于STM32与MATLAB/Simulink的半实物仿真平台,满足了教学与科研中的需求。为了验证
传统的单类支持向量机(one-class support vector machine,OCSVM)在非监督学习领域中取得了较优的性能,从而得到了越来越多的关注。然而,OCSVM存在以下不足之处:一、OCSVM的分类性能在很大程度上依赖于核函数及其参数的选取,若选取不当,则OCSVM就会取得较差的分类效果,而对OCSVM的核函数及其参数的选取迄今仍无可靠的理论依据;二、OCSVM对训练集中的噪声非
极限学习机(Extreme Learning Machine,ELM)具有学习速度快和泛化性能较强的优点,它被广泛应用于分类问题的研究中。由于连接权重的随机初始化,ELM的网络输出往往不够稳定。与ELM相同,单类极限学习机(One-Class ELM,OCELM)同样具有输出稳定性较差的缺点。由于能够加强模型的稳定性和泛化性能,集成学习一直被认为是机器学习领域中一个重要的研究分支。为了提高OCEL
缔合流体是一种具有特殊结构和性质的流体,通过对缔合流体物理化学性质的研究,将会为未来科学的发展和工业的进步提供有价值的见解。因为缔合流体在生物化学、物理化学及材料化学的研究中扮演着重要角色。本文以Aa型缔合流体为研究对象,在具体研究中,首先基于统计力学原理,结合经典流体密度泛函理论,构建体系的巨势泛函,并根据巨势泛函极小化原理计算流体的平衡密度分布,进而得到径向分布函数,并进一步结合Kirkwoo
衡量航空发动机性能优劣的一个核心指标是其推力大小,而转子的转速与发动机推力紧密相关。转子转速调节的快速性和动态精度是衡量航空发动机调速性能的主要性能指标,响应快的调速系统能增加飞机飞行的机动性,但往往伴随着较大的速度超调。转速超调不仅会增加燃油消耗,更可能会导致转子叶片的抖动甚至引发喘振。因此,除了满足对发动机的性能要求外,其安全保护问题同样重要,研究航空发动机调速控制的无超调动态响应,兼顾调速系
生成对抗网络是一种新型的深度生成模型,具有可以拟合任意复杂数据分布的超强建模能力,尤其在图像生成任务中展现了出色的性能,故一经提出就迅速在深度学习领域占领了主流地位。然而,生成对抗网络模型在集图像清晰、简单高效等众多优点于一身的同时也存在着不足之处,模式崩溃就是其面临的主要挑战之一。模式崩溃是指生成器生成的数据样本之间具有较高的相似性,即生成的数据样本集中分布在目标分布的部分模式上,多样性较差。模
近几年,卷积神经网络(Convolution Neural Network,CNN)已经成功应用于许多计算机视觉任务,它的核心是通过卷积运算、池化以及非线性运算,使网络能够在每一层的局部感受野内融合空间和通道信息建立高维特征表示。传统CNN通过执行线性组合和逐元素非线性运算,可以从输入图像中提取一阶信息。而二阶统计信息是对局部特征组按通道计算协方差矩阵、Fisher信息矩阵或基于向量外积运算得到特
对高维数据(如图像)的复杂生成过程进行精确建模是深度学习的关键任务。在许多应用领域中,变分自编码器(VAE)被证明对这项任务非常有效,具有解释和直接控制与数据生成中潜在隐藏因素相对应的潜在变量的能力。但是传统的VAE也有不足之处,那就是对于复杂的模型表现力较差,并且生成的图像往往比较模糊。本文将从改进模型目标函数和改变模型结构两个方面来解决上述问题。本文提出一种基于行列式点过程的变分拉普拉斯自编码