基于强化学习的非平衡数据集决策树分类方法研究

来源 :太原理工大学 | 被引量 : 0次 | 上传用户：weichungchen

【摘要】

：

近年来,随着互联网的普及以及信息化程度的提高,各行业数据呈现快速增长趋势,对这些数据进行快速分类和识别,是有效提高各行业智能信息处理水平,加快相关行业发展水平的关键

【作者】

：

牛壮

【出处】

：

太原理工大学

【发表日期】

：

2018年01期

【关键词】

：

非平衡数据集聚类去冗余欠抽样累积回报集成森林

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来,随着互联网的普及以及信息化程度的提高,各行业数据呈现快速增长趋势,对这些数据进行快速分类和识别,是有效提高各行业智能信息处理水平,加快相关行业发展水平的关键手段。虽然数据量不断增加,但是有些类别的数据量却占有很少比例,即数据集的类别比呈现出非平衡特性,有时候这些数据往往是人们需要研究的重点。目前已有的分类器在对非平衡数据集进行分类时,对少数类样本的识别率并不理想。因此本文首先通过分析非平衡数据集的数据分布规律提出一种基于聚类融合去冗余的欠抽样算法对非平衡数据集进行预处理,然后基于强化学习累计汇报寻优机制对决策树属性选择策略进行优化,提出了基于强化学习累计汇报策略的决策树属性选择策略用于非平衡数据集分类;进而分析随机森林算法原理,提出基于同分布随机抽样法的集成森林算法分类模型。本文所做的工作主要有以下几点:第一:给出了基于聚类融合去冗余的一种改进欠抽样方法,将其用于非平衡数据集分类预测前的数据预处理阶段,并与已有的欠抽样方法进行比较分析。通过分析已有欠抽样算法的缺陷和研究非平衡数据集的分布规律,提出相似度冗余系数概念,并且通过这一系数对数据集进行欠抽样。实验结果表明,本文方法用于非平衡数据集分类时可在分类准确率基本不变的前提下,正类率以及G-mean值获得显著的提升。第二:对已有的决策树模型优化,提出了一种基于强化学习累积回报属性选择法的决策树优化模型。通过分析研究强化学习的理论机理,结合决策树的生长方式提出一种基于强化学习的累积回报属性选择法,将累积回报学习因子融入到决策树节点的分裂属性选择过程中,提高决策树对少数类样本的分类能力。实验通过对比基于强化学习累积回报属性选择法的决策树算法、基于决策树的代价敏感学习法和原始决策树分类模型,证明了本文方法的有效性。第三:以随机森林算法为基础,给出了一种基于同分布随机抽样的改进集成森林算法。分析和研究随机森林算法原理,结合非平衡数据集的数据分布特点,提出一种新的同分布抽样法,通过这种抽样法得到的样本子集既可以保持原有数据集的数据分布规律也可以降低样本子集的非平衡率;然后将同分布抽样法和基于强化学习累积回报属性选择法的决策树算法共同构成集成森林算法。通过实验验证了本文提出的集成森林算法的有效性。

其他文献

输送机整体式中部槽液压安装机的研制

针对综采面输送机的整体式中部槽质量大、在井下无机械安装设备的情况,研制了安全、高效且适用于整体式中部槽的液压安装机,介绍了液压安装机的设计思路、结构、工作原理、技

期刊

输送机中部槽液压安装机

寓能力的培养于数学公式的教学中

本文从数学公式的教学与数学能力的关系出发，就公式教学的五个环节进行了分析，根据各环节的特点以及学生的心理特征，设计了相应的教学方法。

期刊

数学公式教学培养数学能力中学学生

基于SAR监测的水库主要参数计算系统的设计与实现

随着社会生产力的提高,人类对水资源的需求日益加大,作为水资源聚集地的水库,在提供城市居民饮水和工农业生产用水等方面发挥着重要的作用。水库面积、库容等参数直接反映出

学位