论文部分内容阅读
近年来,随着互联网的普及以及信息化程度的提高,各行业数据呈现快速增长趋势,对这些数据进行快速分类和识别,是有效提高各行业智能信息处理水平,加快相关行业发展水平的关键手段。虽然数据量不断增加,但是有些类别的数据量却占有很少比例,即数据集的类别比呈现出非平衡特性,有时候这些数据往往是人们需要研究的重点。目前已有的分类器在对非平衡数据集进行分类时,对少数类样本的识别率并不理想。因此本文首先通过分析非平衡数据集的数据分布规律提出一种基于聚类融合去冗余的欠抽样算法对非平衡数据集进行预处理,然后基于强化学习累计汇报寻优机制对决策树属性选择策略进行优化,提出了基于强化学习累计汇报策略的决策树属性选择策略用于非平衡数据集分类;进而分析随机森林算法原理,提出基于同分布随机抽样法的集成森林算法分类模型。本文所做的工作主要有以下几点:第一:给出了基于聚类融合去冗余的一种改进欠抽样方法,将其用于非平衡数据集分类预测前的数据预处理阶段,并与已有的欠抽样方法进行比较分析。通过分析已有欠抽样算法的缺陷和研究非平衡数据集的分布规律,提出相似度冗余系数概念,并且通过这一系数对数据集进行欠抽样。实验结果表明,本文方法用于非平衡数据集分类时可在分类准确率基本不变的前提下,正类率以及G-mean值获得显著的提升。第二:对已有的决策树模型优化,提出了一种基于强化学习累积回报属性选择法的决策树优化模型。通过分析研究强化学习的理论机理,结合决策树的生长方式提出一种基于强化学习的累积回报属性选择法,将累积回报学习因子融入到决策树节点的分裂属性选择过程中,提高决策树对少数类样本的分类能力。实验通过对比基于强化学习累积回报属性选择法的决策树算法、基于决策树的代价敏感学习法和原始决策树分类模型,证明了本文方法的有效性。第三:以随机森林算法为基础,给出了一种基于同分布随机抽样的改进集成森林算法。分析和研究随机森林算法原理,结合非平衡数据集的数据分布特点,提出一种新的同分布抽样法,通过这种抽样法得到的样本子集既可以保持原有数据集的数据分布规律也可以降低样本子集的非平衡率;然后将同分布抽样法和基于强化学习累积回报属性选择法的决策树算法共同构成集成森林算法。通过实验验证了本文提出的集成森林算法的有效性。