基于随机森林的不平衡大数据分类算法研究

来源 :东北电力大学 | 被引量 : 17次 | 上传用户:hobbycui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,网络上数据增长过快,大数据应用日益成为人们关注的焦点。而实际应用产生的数据都呈现高维、不平衡的特征,这些特征对大数据的分类提出了挑战。因此,本课题将类区分度与K-means算法结合,对高维特征进行维度约减,筛选出有效的维度较低的子集以提高分类精度和效率;然后对代价敏感随机森林算法改进以适应不平衡数据分类;最终通过MapReduce思想对代价敏感随机森林算法并行化设计以实现对不平衡大数据的分类研究。首先,针对高维不平衡数据集中特征之间存在冗余,且容易忽略少数类强相关特征的问题。本课题提出一种基于类区分度的高维不平衡特征选择算法,该算法通过K-means进行特征聚类,并计算簇中每个特征的类别区分度,利用类区分度对每个簇中的特征进行重要性排序,由排序结果选择各簇中类别区分度较高的特征构成降维后的特征集,从一定程度上保证少数类强相关特征的个数,达到处理高维特征冗余与特征不平衡的双重效果。本文通过两组高维不平衡文本集,将本算法与信息增益、卡方统计等算法进行实验对比,结果表明:该算法可以有效处理高维数据。其次,针对不平衡数据进行分类时容易偏向多数类而忽略少数类的问题。本课题提出一种基于代价敏感的随机森林分类算法,该算法根据不平衡数据集的实际分布构造代价函数,并将权重距离引入代价函数,然后根据基分类器的性能采取权重投票,提高分类准确率。本文采用六组UCI样本集,将决策树、随机森林、代价敏感随机森林以及本算法进行实验验证。结果表明:该算法能在保证总体分类性能基础上有效提高少数类的分类性能。最后,针对处理不平衡大数据时会受到数据量,运算能力的影响,建模与投票需要花费大量的时间,严重影响分类器的性能。本课题利用MapReduce思想对代价敏感随机森林算法进行并行化设计,在基分类器的建模过程、属性分裂过程、投票过程进行三重并行化设计,加快基分类器建模速度。从而提高代价敏感随机森林在处理不平衡大数据时的分类性能。本次实验选取四组数据集进行实验,实验结果表明:基于MapReduce的随机森林并行化设计算法极大地提高了分类速度,有效处理了不平衡大数据。
其他文献
电力市场与证券市场、期货市场一样,同属于集中竞价的商品市场,根据电力工业的特点和电力市场的根本目标,合理地编制电力市场的综合指数十分必要。文中首先以道-琼斯指数为例
<正>人们对于数的认识不是一步到位,而是逐步扩充的.从有理数扩充到实数,是这个认识过程中的重要一步.
现有投资控制效果评价未能涵盖电网技改工程的特点和特殊要求,为此构建了一套适用于电网技改工程的投资控制效果评价指标体系和计量标准,采用基于DEMATEL-ANP-Entropy的组合
目的研究牙周病与高血压病发生之间的相关性。方法调查口腔科门诊的牙周病患者的血压数值。调查心血管内科的门诊高血压病人的体重和口腔卫生情况,主要观察牙周病的发生情况
<正>一、平均数、众数与中位数的特点平均数反映了一组数据的平均值的大小,常用来代表一组数据的总体的"平均水平".平均数是统计中最常用的数据代表值,比较可靠和稳定,因为它
快速更新的通信技术惠及了人民,助推了国家经济快速转型发展,但人们对通信网络服务质量也有了更高的要求和期望。面对激烈的市场竞争,如何通过快速提升网络服务质量来获得竞
目的观察SDS9900颈椎非手术脊柱减压系统治疗神经根型颈椎病的疗效,并探讨非手术脊柱减压疗法在神经根型颈椎病治疗中的临床应用价值。方法对入选的60例神经根型颈椎病患者,
贵州实施农村精准扶贫创建扶贫开发攻坚示范区是党和国家赋予贵州省的一项重大政治任务,是国发2号文件赋予贵州的战略定位之一,对确保到2020同步建成全面小康社会具有重要的
目的探讨便血患者的常见病因及其与年龄的相关性。方法分析我院2001年1月至2005年10月诊治的1193例便血患者的肠镜或双气囊小肠镜检查结果。结果①便血患者的常见病因依次为
采用硫酸-苯酚法测定不同栽培品种山茱萸药材中多糖的含量.7个栽培品种33份样品测定结果显示,我国山茱萸产区的5个主流品种:椭圆形果型、圆柱形果型、长圆柱形果型、长梨形果