随机森林算法的优化研究及在文本并行分类上的应用

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:logicwords
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随机森林是一种典型的组合分类器,通过引入随机性构造出决策树的集合,克服了决策树容易过拟合、局部收敛的问题。由于随机森林算法很好的解决了单分类器在性能上的瓶颈,因此逐渐被广泛应用。但是随机森林算法也存在不足,某些方面有待完善,本文就特征选择和处理非平衡数据集两个方面对其进行优化,还在Hadoop平台上实现了随机森林算法对文本的并行分类,主要研究成果包括以下几个方面:(1)在特征选择方面,本文在随机森林内置的特征选择方法上做出改进,提出了一种新的特征选择算法。该算法首先在分布式平台上使用MapReduce构建随机森林,其次通过改变袋外数据的每一列特征获取每一棵决策树对应的特征重要性度量及权重,然后运用两者的加权求和求得特征重要性排序,其中决策树的权重取决于决策树与集体随机森林预测的一致性。最后,在特征重要性排序的基础上引入了一定的随机性,确保了每棵树的强度,又减少了树与树间的相关性。实验结果表明:相比于传统单机模式下的随机森林特征选择算法,该算法在分类的准确性和运行效率上效果良好。(2)在数据预处理方面,对数据集类不平衡问题进行研究,并描述了几种解决方法,根据典型的SMOTE算法进行改进,提出了一种新的M3C-SMOTE算法,该方法首先结合K-means聚类算法找出样本集的三大簇心,进而求得重心,然后以该重心为中心“人造”新样本,很好的解决了SMOTE算法存在的盲目性、边缘化问题。最后对该方法和前面这些SMOTE算法做了对比实验,实验结果表明该方法对数据集预处理之后,随机森林算法的分类性能得到改善。(3)文本分类过程中的文本预处理、文本特征选择、文本向量化、训练、分类等需要进行大量的统计与计算,对此本文使用Mapreduce分布式计算框架对这些过程均进行了详细具体的并行计算与实现,然后经过加速比对比实验,验证了分布式模式下海量文本并行分类的高效性。最后在文本分类过程中引入了前面关于随机森林的特征选择算法,进一步提升了文本分类的准确性。
其他文献
研究了双咪唑烷基脲、对羟基苯甲酸酯复合防腐体系在金属离子存在下的防腐行为。实验结果表明在金属离子存在下此防腐体系严重失活 ,EDTA的加入可明显地增加此防腐体系对假单
随着科学技术的发展,随着信息技术和网络技术的发展,人们已经能够清楚地描述清楚立体物体。因此提出虚拟校园的概念,虚拟校园是虚拟现实技术在校园文化建设中的应用,它提供了
<正>预计2012年中国锌精矿产量将达423万吨根据有色金属工业协会公布的数据,8月锌精矿产量为46.8万吨(锌量),环比增长5.6%;1-8月锌精矿总产量为330万吨(锌量),同比增长21.25%
采用B型超声诊断仪诊断出患卵巢囊肿、多囊卵巢的病人73例。中医辨证分为痰湿蕴结证、气滞血瘀证和无明显证型,B超图像主要分为浆液性和黏液性,超声特征与证型之间存在着显著
金褐链霉菌(Streptomyces aureofuscus)是从我国土壤中分离得到的链霉菌新种,其产生一种四烯大环内酯类抗真菌抗生素——金褐霉素(Aureofuscin),金褐霉素化学结构与国外文献
要高度重视和科学认识企业文化建设中跨文化企业的文化冲突.通过建立有效的跨文化沟通和促进跨文化企业的文化融合,从而增强跨文化企业应对文化环境变迁的能力和核心竞争能力
新时代背景下,新媒体成为各领域应用较为广泛的技术.而新媒体展示设计则可以通过新媒体设备作为依托,展览设计实质.借助新媒体平台满足受众的个性化需求.而交互设计在新媒体
<正>广东林安物流园简介:林安物流集团是广东省、广州市人民政府重点扶持的现代物流企业。公司成立于2005年,公司自有品牌为"林安",拥有独立的法人资格和完善的组织结构。集
作为工程竣工结算的重要依据,现场签证的准确性、合理性、合规性要求较为关键,详细清晰的现场签证可有效避免可能发生的风险或意外。基于此,本文将分析工程项目现场签证及结
为研究螺栓松动寿命特性,利用疲劳试验机,设计了螺栓横向振动试验。首先改变横向振动频率,对比位移、速度、加速度振幅对螺栓松动寿命的影响,确定横向位移振幅是影响螺栓松动