基于强化学习的非平衡数据集决策树分类方法研究

来源 :太原理工大学 | 被引量 : 0次 | 上传用户:weichungchen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网的普及以及信息化程度的提高,各行业数据呈现快速增长趋势,对这些数据进行快速分类和识别,是有效提高各行业智能信息处理水平,加快相关行业发展水平的关键手段。虽然数据量不断增加,但是有些类别的数据量却占有很少比例,即数据集的类别比呈现出非平衡特性,有时候这些数据往往是人们需要研究的重点。目前已有的分类器在对非平衡数据集进行分类时,对少数类样本的识别率并不理想。因此本文首先通过分析非平衡数据集的数据分布规律提出一种基于聚类融合去冗余的欠抽样算法对非平衡数据集进行预处理,然后基于强化学习累计汇报寻优机制对决策树属性选择策略进行优化,提出了基于强化学习累计汇报策略的决策树属性选择策略用于非平衡数据集分类;进而分析随机森林算法原理,提出基于同分布随机抽样法的集成森林算法分类模型。本文所做的工作主要有以下几点:第一:给出了基于聚类融合去冗余的一种改进欠抽样方法,将其用于非平衡数据集分类预测前的数据预处理阶段,并与已有的欠抽样方法进行比较分析。通过分析已有欠抽样算法的缺陷和研究非平衡数据集的分布规律,提出相似度冗余系数概念,并且通过这一系数对数据集进行欠抽样。实验结果表明,本文方法用于非平衡数据集分类时可在分类准确率基本不变的前提下,正类率以及G-mean值获得显著的提升。第二:对已有的决策树模型优化,提出了一种基于强化学习累积回报属性选择法的决策树优化模型。通过分析研究强化学习的理论机理,结合决策树的生长方式提出一种基于强化学习的累积回报属性选择法,将累积回报学习因子融入到决策树节点的分裂属性选择过程中,提高决策树对少数类样本的分类能力。实验通过对比基于强化学习累积回报属性选择法的决策树算法、基于决策树的代价敏感学习法和原始决策树分类模型,证明了本文方法的有效性。第三:以随机森林算法为基础,给出了一种基于同分布随机抽样的改进集成森林算法。分析和研究随机森林算法原理,结合非平衡数据集的数据分布特点,提出一种新的同分布抽样法,通过这种抽样法得到的样本子集既可以保持原有数据集的数据分布规律也可以降低样本子集的非平衡率;然后将同分布抽样法和基于强化学习累积回报属性选择法的决策树算法共同构成集成森林算法。通过实验验证了本文提出的集成森林算法的有效性。
其他文献
针对综采面输送机的整体式中部槽质量大、在井下无机械安装设备的情况,研制了安全、高效且适用于整体式中部槽的液压安装机,介绍了液压安装机的设计思路、结构、工作原理、技
本文从数学公式的教学与数学能力的关系出发,就公式教学的五个环节进行了分析,根据各环节的特点以及学生的心理特征,设计了相应的教学方法。
随着社会生产力的提高,人类对水资源的需求日益加大,作为水资源聚集地的水库,在提供城市居民饮水和工农业生产用水等方面发挥着重要的作用。水库面积、库容等参数直接反映出
在回采过程中,由于地质构造与煤层产状发生变化,需要对跃进煤矿23010综采工作面进行改造,使掘进新切眼、巷道与原工作面实现对接。在工作面改造过程中,方案合理,措施得力,保
库尔特·冯内古特是美国最著名的后现代主义作家之一,作家本人的精神创伤经历以及美国后现代社会的疯狂、荒诞和人道主义的担当意识促使他借助文学想象来聚焦、书写和再
通过工作面设计方案优化技术应用研究,实现了复杂地质条件下不规则工作面的合理集中生产,获得较高的投入产出比。
针对用于ITER部件转动的气垫车,设计了气压驱动系统,研究了气垫的控制方法.首先,探讨了气垫孔口出流的运动学特性,建立了气垫气动伺服控制的数学模型.其次,在建立气垫状态方程基础上
结合实际,分析了长段注浆和短段边掘边注技术的优缺点,提出了把2项技术集成到一起的新思路,在实际应用中取得了较好的效果。
目的:研究乙肝患者外周血CD4^+T淋巴细胞亚群、CD8^+T淋巴细胞亚群CD28分子表达变化。探讨外周血T淋巴细胞CD28的表达对乙型肝炎患者的免疫学意义及临床意义。方法:应用流式细胞
搞好作文教学,最重要最基本的一条,就是作文教学必须与大量的经典阅读与赏析结合起来。国家教育部也以教学大纲的形式向全国中小学生推荐古今中外名著。特别是“语文新课标”,对