随机森林算法的优化研究及在文本并行分类上的应用

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户：logicwords

【摘要】

：

随机森林是一种典型的组合分类器,通过引入随机性构造出决策树的集合,克服了决策树容易过拟合、局部收敛的问题。由于随机森林算法很好的解决了单分类器在性能上的瓶颈,因此

【作者】

：

张鑫

【出处】

：

南京邮电大学

【发表日期】

：

2018年期

【关键词】

：

随机森林特征选择非平衡数据集 Hadoop 文本分类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随机森林是一种典型的组合分类器,通过引入随机性构造出决策树的集合,克服了决策树容易过拟合、局部收敛的问题。由于随机森林算法很好的解决了单分类器在性能上的瓶颈,因此逐渐被广泛应用。但是随机森林算法也存在不足,某些方面有待完善,本文就特征选择和处理非平衡数据集两个方面对其进行优化,还在Hadoop平台上实现了随机森林算法对文本的并行分类,主要研究成果包括以下几个方面:(1)在特征选择方面,本文在随机森林内置的特征选择方法上做出改进,提出了一种新的特征选择算法。该算法首先在分布式平台上使用MapReduce构建随机森林,其次通过改变袋外数据的每一列特征获取每一棵决策树对应的特征重要性度量及权重,然后运用两者的加权求和求得特征重要性排序,其中决策树的权重取决于决策树与集体随机森林预测的一致性。最后,在特征重要性排序的基础上引入了一定的随机性,确保了每棵树的强度,又减少了树与树间的相关性。实验结果表明:相比于传统单机模式下的随机森林特征选择算法,该算法在分类的准确性和运行效率上效果良好。(2)在数据预处理方面,对数据集类不平衡问题进行研究,并描述了几种解决方法,根据典型的SMOTE算法进行改进,提出了一种新的M3C-SMOTE算法,该方法首先结合K-means聚类算法找出样本集的三大簇心,进而求得重心,然后以该重心为中心“人造”新样本,很好的解决了SMOTE算法存在的盲目性、边缘化问题。最后对该方法和前面这些SMOTE算法做了对比实验,实验结果表明该方法对数据集预处理之后,随机森林算法的分类性能得到改善。(3)文本分类过程中的文本预处理、文本特征选择、文本向量化、训练、分类等需要进行大量的统计与计算,对此本文使用Mapreduce分布式计算框架对这些过程均进行了详细具体的并行计算与实现,然后经过加速比对比实验,验证了分布式模式下海量文本并行分类的高效性。最后在文本分类过程中引入了前面关于随机森林的特征选择算法,进一步提升了文本分类的准确性。

其他文献

乙二胺四乙酸的协同防腐作用的研究

研究了双咪唑烷基脲、对羟基苯甲酸酯复合防腐体系在金属离子存在下的防腐行为。实验结果表明在金属离子存在下此防腐体系严重失活 ,EDTA的加入可明显地增加此防腐体系对假单

期刊

双咪唑烷基脲对羟基苯甲酸酯乙二胺四乙酸(EDTA)金属离子假单胞杆菌抑菌作用

基于3ds max的立体模型制作

随着科学技术的发展,随着信息技术和网络技术的发展,人们已经能够清楚地描述清楚立体物体。因此提出虚拟校园的概念,虚拟校园是虚拟现实技术在校园文化建设中的应用,它提供了

期刊

3ds max立体模型制作

2012年9月国内锌市场综述及后市展望

<正>预计2012年中国锌精矿产量将达423万吨根据有色金属工业协会公布的数据,8月锌精矿产量为46.8万吨(锌量),环比增长5.6%;1-8月锌精矿总产量为330万吨(锌量),同比增长21.25%

期刊

有色金属工业锌精矿压铸锌合金精炼锌同比增长后市展望市场综述供求平衡企业开工率

卵巢囊肿中医辨证分型与B超观测关系分析

采用B型超声诊断仪诊断出患卵巢囊肿、多囊卵巢的病人73例。中医辨证分为痰湿蕴结证、气滞血瘀证和无明显证型,B超图像主要分为浆液性和黏液性,超声特征与证型之间存在着显著

期刊

卵巢囊肿辨证B超

金褐霉素基因工程菌的构建及表达产物的纯化

金褐链霉菌(Streptomyces aureofuscus)是从我国土壤中分离得到的链霉菌新种,其产生一种四烯大环内酯类抗真菌抗生素——金褐霉素(Aureofuscin),金褐霉素化学结构与国外文献

学位

金褐霉素金褐链霉菌AURJ3MpimM接合转移大孔吸附树脂

简论企业文化建设中的跨文化沟通与融合

要高度重视和科学认识企业文化建设中跨文化企业的文化冲突.通过建立有效的跨文化沟通和促进跨文化企业的文化融合,从而增强跨文化企业应对文化环境变迁的能力和核心竞争能力

期刊

企业文化沟通融合

新媒体展示设计中的交互设计研究

新时代背景下,新媒体成为各领域应用较为广泛的技术.而新媒体展示设计则可以通过新媒体设备作为依托,展览设计实质.借助新媒体平台满足受众的个性化需求.而交互设计在新媒体

期刊

新媒体展示设计交互设计理念传播能力传播效果

广东林安物流园

<正>广东林安物流园简介:林安物流集团是广东省、广州市人民政府重点扶持的现代物流企业。公司成立于2005年,公司自有品牌为"林安",拥有独立的法人资格和完善的组织结构。集

期刊

物流园物流策划现代物流企业

关于工程项目现场签证及结算管理办法的分析

作为工程竣工结算的重要依据,现场签证的准确性、合理性、合规性要求较为关键,详细清晰的现场签证可有效避免可能发生的风险或意外。基于此,本文将分析工程项目现场签证及结

期刊

现场签证结算管理真实性

螺栓松动寿命特性试验研究

为研究螺栓松动寿命特性,利用疲劳试验机,设计了螺栓横向振动试验。首先改变横向振动频率,对比位移、速度、加速度振幅对螺栓松动寿命的影响,确定横向位移振幅是影响螺栓松动

期刊

螺栓松动试验横向位移振幅松动寿命曲线

随机森林算法的优化研究及在文本并行分类上的应用

与本文相关的学术论文