高维不平衡数据的代价敏感随机森林分类算法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:xixijeffkol
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的发展,数据形式呈现多样化。其中,具有高维和不平衡双重特性的数据广泛存在于我们的实际应用中。传统的分类模型在分类这样的高维不平衡数据时,其期望风险最小化导致结果总是倾向于对大类样本有更高的识别率,而忽略小类样本;且数据的高维性带来了大量无关特征和冗余特征,使得算法的复杂度增加,分类效果不佳。针对上述问题,本文分别从算法层面和特征层面对传统随机森林算法进行研究,给出一个适应不平衡数据和高维特性的代价敏感随机森林算法,本文所取得研究成果主要有:针对数据不平衡特性研究分析了传统代价敏感随机森林分类模型。该模型随着不平衡程度逐渐增大,其自助法采样导致小类样本学习不充分,且大类样本占比大易削弱代价敏感机制。因此,本文提出一种基于聚类的弱平衡准则。通过对大类样本聚类后,多次采用弱平衡准则对每个集群进行降采样,使得选出的大类样本与原训练集的小类样本融合生成多个新的不平衡数据集,用于代价敏感决策树的训练。该方法不仅使小类样本得到充分学习,同时通过降低大类样本数量,保证代价敏感机制受其影响较小。实验对比5种方法在一些公共数据集上的分类性能,该方法对小类样本识别率和整体分类精度都有一定的优势。针对高维不平衡数据中存在特征利用率低和类别的特征空间分布不均匀的问题,提出一种筛选-优化两阶段特征选择方案。首先以相关性度量准则为初始筛选阶段,筛选出对小类样本有利的强相关特征,并剔除部分不相关特征和冗余特征。其次以重要性度量准则为优化提取阶段,进一步将选出的特征子集分为有效提高集成性能的强重要性特征子集和弱重要性特征子集。该方案可以有效提高特征利用率,同时改善小类样本特征稀疏的困境,在此基础上还提取出对学习任务贡献率大的特征子集,较好地增强集成准确率。最后,对经过特征选择的高维不平衡数据集进行弱平衡代价敏感随机森林集成学习。实验验证算法在保证总体分类性能的基础上有效提高小类的分类性能。
其他文献
植物叶片大小、形态会因着生位置不同而产生差异,这种现象称为异形叶(Heterophylly)。目前,基于拟南芥等模式生物的分子生物学研究发现,mi R156-SPLs是异形叶发育的核心调控
农村养老支持系统的存在是我国农村养老活动得以延续不断的重要原因,这一支持系统经历了怎样的演变过程,其构成是怎样的,又是怎样运行的,在时代变革尤其是当前的快速老龄化冲
抗战时期是我国高等教育发展的重要时期,也是我国高等教育事业面临生死存亡的关键时期。抗战初期,日本侵略者便将目光对准我国高等教育机构,欲毁灭我国教育之根本。我国各大
随着互联网蓬勃发展以及网络用户数量与日俱增,网络能耗逐年增长,网络能耗优化已经成为国内外研究的热点问题之一。协同休眠技术通过流量迁移将网络流量集中到网络拓扑子集,并通过将空闲设备调整至休眠来有效降低网络能耗。但是,网络能耗优化过程也会增加网络传输时延,影响网络性能。因此,研究保障传输性能的协同休眠方法,对降低网络能耗和提高传输性能具有重要意义。论文总结了网络能耗优化技术的研究现状和典型方法,针对协
土壤淋洗修复技术可快速将重金属从污染土壤中去除,但淋洗过程对土壤性质和结构的破坏引起人们关注。本论文采用“温和”淋洗剂—EDTA、GLDA和柠檬酸混合试剂(MC)淋洗重金属污
随着计算机视觉技术的不断发展、数字成像设备的不断升级,图像深度测量方法被广泛应用于智能机器人领域、交通辅助领域、3D建模领域和3D视频制作领域。经过对比激光、红外光、超声波、双目视觉和单目视觉等深度测量的方法,基于单目视觉的被动深度测量方法因其操作简单、成本低廉、具有较小的空间与载荷成为研究热点,不仅具有理论意义,更具有实用价值。本文主要利用图像中目标物体的特征来获取绝对深度信息。方法主要包括以下
20世纪80年代以来,金融化趋势逐渐加快,不再仅仅表现为宏观的“经济金融化”,也逐渐体现为微观的“公司金融化”,非金融公司越来越多的参与到金融市场中。习近平主席指出经济发展的着力点应该为实体经济,创新是提高公司竞争力的核心。因此本文从公司金融化的角度来解释我国实体公司创新不足的现象,有助于防范公司过度金融化。本文采用理论分析与实证分析相结合的研究方法来分析公司金融化对技术创新的影响。本文首先阐述了
发电机励磁系统对电力系统的稳定性影响显著并有着重要的意义,因此需要能够正确反映励磁设备调节特性的数学模型和合理参数,为电力系统稳定分析提供准确的计算数据,这是建立安全合理运行方式,制定正确安全控制措施的基本保证。建立励磁系统的数学模型是保证电力系统安全稳定分析的基础,本文主要采用新型技术研究与现场试验相结合的方法,对发电机励磁系统进行参数实测以及仿真计算,建立数学模型。根据理论推导并结合实测,针对
近年来,国际社会不断提高对跨国经营企业社会责任绩效的重视程度,社会责任绩效成为企业国际化经营成功的关键要素之一。而且随着互联网技术的发展,企业信息透明度不断增强,人们对企业社会责任履行情况越来越关注,“义利合一”型企业已成为全球企业实现可持续发展的趋势,如践行“敬天爱人”、“义利合一”的京瓷等企业,其社会责任履行情况是其他企业学习的典范。现阶段学者对企业社会责任的研究主要从利益相关者角度来进行,本
氧化亚氮(N2O)是一种重要的温室气体,土壤是最重要的N2O排放源之一。由于对N2O的产生过程尚未明晰,有关土壤N2O排放量的估算仍存在很大不确定性。现有结果表明,在湿润的亚热带