随机森林的模型选择及其并行化方法

被引量 : 0次 | 上传用户:xuebin0523
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的分类算法在低维度的数据集上面能够获得比较理想的分类效果,但是在高维度的数据集上它的分类性能则会出现较大的下降。高维数据结构复杂,包含更多的非信息和噪声,随机森林算法采用了特征子空间来构建模型,所以构建的模型难免会混杂很多的噪音,而利用这些包含噪音的模型进行预测分类将会降低随机森林算法的分类效果。所以如何从众多的模型中选择适合的模型,使随机森林算法在低维和高维的数据集上都能拥有较好的分类性能成为本课题的重点研究问题。同样随着模型的增多,计算量也呈现指数值的增长,如何提高模型的构建以及预测速度,也是本课题的一个研究问题。针对随机森林的模型选择以及海量并行化的模型构建预测等问题,本课题进行了深入的分析和研究,主要的研究内容和研究成果如下所示:首先,在对随机森林算法的理论研究的基础上,归纳和阐述了目前常用的随机森林模型选择方法,并且详细地分析了这些方法的具体流程以及鲁棒性,同时也研究了基于MapReduce框架的分布式并行化方法;然后,提出一种基于马尔科夫链的随机森林动态模型选择方法,采用动态选择的方式,融合随机游走的马尔科夫链思想,将模型、训练样本集和测试样本分成三层,通过分类器的个体强度计算、分类器相互之间的相关性计算、每个测试样本与训练样本集的相似性计算以及加权投票模型选择四步来不断进行上层到中层(中层到上层)、下层到中层(中层到下层)以及同层到同层的循环迭代,最后实现随机森林的动态模型选择。根据不同的低维和高维数据集与常用的模型选择方法进行结果比较,证明了本方法在Out-of-Bag(OOB)误差、算法强度、平均相关度、泛化误差上界、分类准确率分类等五个方面的优势;接着,提出了基于MapReduce框架的随机森林并行化方法,通过对随机森林模型构建以及投票的并行化进行改进,提高了随机森林算法的运行效率;最后,基于以上的研究成果,本文设计并实现了基于马尔科夫链的随机森林动态模型选择及其并行化的原型系统。该系统包括数据输入、参数配置、模型选择、并行化调度接口等四个模块,包含了随机森林模型选择及其并行化方法的全部操作流程,其中模型选择模块成功地运用到了企业的数据挖掘平台中。
其他文献
近年来,随着我国经济社会的迅猛发展和改革开放的逐步深入,农村大量的剩余劳动力进城务工,常年出门在外,甚至多年不回家,其子女或留给老人照料,或托给亲戚管护,在农村出现了这样一个
模糊聚类因其能较好地将具有不确定性的样本点分类,从而在图像分割中有着广泛地应用。本文对模糊聚类中最为经典的方法—模糊c均值算法进行了研究,并对它进行了改进和优化,同时
目的比较利伐沙班和磺达肝癸钠在髋、膝关节置换术后预防静脉血栓的有效性和安全性,为临床用药提供参考数据。方法通过收集利伐沙班、磺达肝癸钠与依诺肝素预防静脉血栓的随
作为一种迅速、舒适、方便、快捷的交通工具,出租车逐渐被广大出行者青睐,居民乘坐出租车出行比例不断增加。出租车在为居民提供便捷服务的同时,其发展弊端也随着出行需求的增加
商品混凝土是由水、水泥、砂、石、掺合料、外加剂六种原材料组成的。预拌混凝土的工作性能、成品混凝土的强度、耐久性能很大程度上依赖于原材料质量。在高标准要求的建筑施
本文运用计算机模拟方法,在构造由两个技术站及其邻接区段组成的实验系统模型的基础上,在不同行车条件下,通过对系统正常运行状态和各种中断状态的模拟实验和数据分析,定量地确定
本文以近几场局部战争为基础,通过分析美国空袭作战理论,阐述了一体化防空条件下要地防空在现代防空中的重要地位。
清世宗雍正是位雄才大略之君。他借康熙猝死之机即位后,为巩固其统治,并报储位之争中的积怨,曾在长达四年的清除朋党过程里,对自己的兄弟大动干戈,甚至连他们的儿子也都受到
谷氨酰胺转氨酶(Transglutaminase,简称TGase,EC2.3.2.13,R-glutaminyl-peptide:amnie-γ-glutamyl-transferase)又名转谷氨酰胺酶,它通过催化蛋白质中谷氨酸残基上的甲酰胺与赖氨酸
目的慢性非特异性唇炎目前尚无有效的治疗方法,本研究通过口服与局部外用药物联合治疗的方法对48例慢性非特异性唇炎患者进行治疗,观察治疗的近、远期疗效。方法1.病例收集选择2