基于Adaboost算法对不平衡数据二分类问题的处理研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:qq2009liuwei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据时代,随着各种各样数据的不断复杂化,数据样本不平衡问题愈发严峻且范围愈加广泛。而在当下的理论研究中,传统的机器学习建模方法在解决实际问题时,只有在正负类别较为均衡的情况下,才有较好的分类预测效果、较高的精确度、准确度和召回率。在样本分类差距较为悬殊的时候,传统的机器学习方法及评价指标都无法在预测的时候更加重视少数类样本,从而导致因忽略少数类样本现实意义带来的预测偏差。如何解决不平衡数据问题的研究引起了越来越多国内外学者的关注。本文提出了一种解决不平衡数据二分类问题的处理方法。现有的理论研究提出了适用于各种数据类型的数据采样方法和算法来解决不平衡数据问题,但是单一的采样方法并不能很好地解决所有不同类型的不平衡问题。本文基于Adaboost的集成学习理论,提出了集成各种不同采样方法的改进方法:在每一轮迭代中,根据训练集样本不同的权重分布选择使训练集加权误差最小的采样方法,来达到平衡不均衡二分类数据的目的;通过增加错误预测样本的权重重点学习错误预测的样本,通过计算每一轮预测数据的结果调整样本权重计算弱学习器的系数;最后输出弱学习器和弱学习器系数的线性组合作为强学习器,提高学习器的预测效果,尤其是在少数类样本的预测效果。本文的改进方法通过对六组蒙特卡洛模拟数据进行实验得出该方法具有稳健性的结论。同时还将本文方法应用于信贷问题和交易预测问题的实证分析,该方法在两个实证数据上均表现出了较好的预测效果。
其他文献
口服给药仍然是最简单、最容易的给药途径,且固体口服剂型与其他类型的口服剂型相比具有许多优点,如高稳定性、体积较小、剂量准确、易于生产。药物口服后生物利用度低与其溶解度低和溶出速率小有关。固体分散体技术(SDs)简便易行且效果明显,在改善水难溶药物的溶解性和提高其生物利用度方面得到了广泛应用。DP-VPA是丙戊酸的磷脂前体药物,且在临床中丙戊酸被推荐作为抗精神病的辅助剂用于治疗精神分裂症。同时磷脂也
学位
目的 采用LPS诱导心肌炎小鼠动物模型和H9c2心肌细胞损伤模型,探讨杨梅苷(Myricetin,Myr)是否通过调节TLR4/mTOR通路来缓解LPS诱导的心肌炎症,为杨梅苷用于防治心肌炎提供实验和理论依据。方法 1.体内实验:以脂多糖(Lipopolysaccharide,LPS)诱导C57/BL6小鼠构建心肌炎动物模型。50只小鼠随机分为5组,每组10只。分别为对照组、模型组(LPS)、给药
学位
近年来基于高频数据对已实现协方差矩阵进行建模研究已成为协方差矩阵研究领域的重要方向,但是由于金融市场往往存在着明显的波动非对称性,为了对金融资产自身及金融资产之间的波动特征进行更为现实和准确的刻画,在已实现协方差矩阵的研究中有必要将波动非对称性纳入考察范围。由于此类问题的相关研究较为缺乏,本文试图构建基于波动非对称性的已实现协方差矩阵模型,以此考察不同形式的波动非对称性对已实现协方差矩阵建模的影响
学位
Logistic回归模型广泛应用于病例对照数据分析。但同其他参数模型一样,logistic回归模型也可能存在假定错误的情况,为了把这种情况识别出来,我们需要对参数模型的设定进行拟合优度检验。Qin和Zhang(1997)发现在病例对照数据下logistic回归模型等价于一类exponential tilting密度比模型,并结合经验似然方法提出了一种基于Kolmogorov-Smirnov(记为K
学位
考虑一个存在均值变点(跳点)的非参数回归模型,已有的文献大致可以分为侧重点不同的两类:一类主要关注变点位置的估计,另一类主要关注带跳曲线的拟合。本文提出了一种新的方法,可以使得变点估计和带跳曲线拟合同时进行。我们利用截断幂基多项式和阶梯函数对真实回归曲线进行逼近。在估计过程中,我们对截断幂基多项式中含有样条节点部分的回归系数以及阶梯函数的回归系数分别施加L2惩罚和L1惩罚,从而控制拟合曲线的光滑程
学位
AlGaN基紫外激光器(UV-LDs)在医疗诊断、生物检测、化学分析、非视距通信与高密度数据存储等诸多领域的应用都十分重要,与其他固体、气体激光器相比,更是具有高光束质量、高效率、低成本、体积小等优点。虽然有不少科研人员致力于推动其性能提升的研究,但是至今电泵浦AlGaN基紫外量子阱激光器的研究进展相对缓慢,晶体质量差、P型掺杂困难、载流子注入效率低、光限制问题等多方面难题阻碍向更短波长实现高性能
学位
目的 回顾性分析新生儿坏死性小肠结肠炎(necrotizing enterocolitis,NEC)患儿临床资料,筛选出独立危险因素及保护因素,构建模型,对NEC发生进行早期干预提供数据支持。方法 收集2018年7月—2021年7月温州市人民医院NICU新生儿科住院的符合标准的415例早产儿临床资料。对早产儿及产妇的临床资料进行单因素分析找出可能的危险因素。利用多因素logistic回归分析影响N
学位
风险是金融体系和金融活动基本属性之一,对投资者来说,从金融市场中获取收益的同时控制好损失的风险,是至关重要的。文章通过构建一个Copula函数下SRM模型,度量金融资产组合面临的潜在损失风险,建立满足投资决策的潜在损失风险达到最小值的条件时的资产权重优化问题。SRM模型摆脱了收益率服从正态分布的假设,且将投资者风险厌恶情绪纳入模型,相对于其他风险测度模型有很大的优势。但是SRM模型完全基于资产的历
学位
2009年4月,银监会印发了《关于中小商业银行分支机构市场准入政策的调整意见(试行)》,从政策上允许跨区域经营。但由于快速的扩张产生了许多的问题,近年来,银监会对城市商业银行的跨区域经营又有所限制。本文从城市商业银行的跨区域经营问题出发,收集整理了 132家城市商业银行2007年-2017年的数据,分别从扩张城市的选择和跨区域经营的异质性两个层面展开分析。首先手动整理了股东的地址信息,构建起“银行
学位
由于传感器技术、通信技术、数据存储技术等的飞速发展,硬件软件的同步推进,各领域产生并存储了大量数据,数据的有效利用成为了研究与实践的热点,数据挖掘可以提取出数据中蕴含的重要信息,其中,分类是应用较为广泛的一种关键算法。但是,与理想情况背道而驰的是,现实中的数据往往存在着类别不平衡的问题,即属于某一类别的样本数量显著小于其他类别样本的数量且少数类的误分代价往往高于多数类,这挑战了传统分类技术的既定假
学位