基于Hadoop平台的决策树改进及其研究

来源 :河北工业大学 | 被引量 : 0次 | 上传用户:minyii
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技的发展,大数据时代的到来,数据挖掘成为从数据流中获得有价值的大量的信息和知识的有效手段。为了能更高效地获得需要的信息,本文先对最常用的C4.5算法进行优化,改进对数据集的不可靠性带来的误差,然后将云计算和数据挖掘相结合,在Hadoop平台上赋予IP-C4.5算法新的意义,使其具有处理海量数据的能力,最后将改进的算法应用于某联通公司的客户流失问题的分析中。为了使对于比较嘈杂的数据集能有较高的建模正确率,在原来C4.5算法以信息增益熵作为选择度量的基础上,结合不确定概率理论,引入狄利克雷模型,得到新的基于不确定概率的信息增益率作为新的选择度量。然后,在理论研究的基础上引入UCI数据集,将优化算法和已有的相关改进算法作对比实验,得到改进算法对分类和预测具有更高的正确率和更短的时间性。研究了Hadoop平台的工作原理和并行化的Map Reduce编程框架,了解云计算技术。并且在串行优化的基础上,对数据集在计算属性选择度量上进行纵向划分,结合C4.5的传统算法模型,用新的形式对算法进行并行化改进实现。引用部分UCI数据集进行实验分析,得到并行化之后的算法在处理海量的数据时确实更高效,而且分类正确率得到了保证。针对改进之后的算法应用于分析某联通公司的客户流失问题,在海量的客户数据之中需要的信息和规则,更高效地获得有用的信息,便于企业对客户的分类以及对于客户流失的预测,便于企业对客户流失问题建立预警机制和为挽留住顾客寻找决策的依据。
其他文献
目的:erl(erlong,erl)小鼠是在C57BL/6J小鼠背景基础上,新近筛选制备的研究非综合征常染色体隐性遗传性耳聋(DFNB12)的模型小鼠。erl是钙粘蛋白23基因新发现的等位基因位点,
随着我国在建土石坝的高度越来越高,筑坝粗粒料的粒径也越来越大,最大达到800mm1600mm,其工程特性也越来越复杂。目前对大粒径粗粒料的研究方兴未艾,但缩尺效应对其强度与变形特性的影响仍有必要展开进一步研究。为利用现有试验仪器对大粒径粗粒土的各项工程特性进行试验研究,必须要对试验材料的原型级配进行缩尺处理。然而,缩尺后的替代级配与原型级配之间不可避免的会产生差异,这种缩尺效应势必会给试验材料的性
传统绝热技术是当前量子信息领域中非常成熟而且应用广泛的一种技术。对比其它技术,绝热技术的主要优点就是它能很稳定的抵制耗散和实验参数的一些波动,另外我们不需要准确控
神经元是构成神经回路的结构基础,了解神经元的精细结构以及神经元之间的连接关系对脑功能和脑疾病的研究至关重要。重建神经元形态能够为神经科学研究提供数据基础。神经元
本文设计了一种无模万向弯管机,并在圆管弯曲加工工艺方面,基于IGES进行了前置处理软件的开发研究。首先,简单概括了弯管机设计的总体方案:将Solidworks设计的成型管制品的三维模型图保存为IGES文件格式,之后通过本文设计的G代码生成软件将该IGES文件转化为无模弯管机能够识别的G代码文件,然后将G代码文件传到控制系统中的控制器中,控制器控制弯管机运动从而完成对管料的加工成型。然后,详细介绍了
量子信息学是一门整合了量子力学和现代信息科学的新兴交叉学科,它在量子计算与量子通信方面有很广泛的应用。量子纠缠是量子信息学的核心部分,它为有效地实现量子通信和量子
目的:阻塞性睡眠暂停综合征(OSAS)的典型特征包括间歇性低氧、夜间的睡眠片段化,目前OSAS是在呼吸睡眠障碍这一领域最常见的病症之一。由阻塞性睡眠呼吸暂停综合征引起的间歇
国务院1986年发布了《中华人民共和国房产税暂行条例》规定,房产税是以房屋为征税对象,按房屋的计税余值或租金收入为计税依据,向产权所有人征收的一种财产税。房产税的征收范围仅限于城市、县城、建制镇和工矿区范围内的经营性房屋。2011年起在上海和重庆实施对居民住宅征收房产税的试点。我国由于长期免征个人住房房产税,房产税的税收收入有限,在地方税费收入中的占比一直不高,房产税的征管问题也一直没有得到足够的
量子信息是当前国际研究的热点之一,量子纠缠则是量子信息处理的一种非常重要的资源。因此如何对纠缠态进行操纵,是量子信息发展的基础。相对于其他物理系统,腔量子电动力学
本文在现有锚杆钻车研发基础上,结合实际巷道支护需求,首先,确定了双臂锚杆钻车总体结构方案;计算出破岩阻力与整机功率,确定了回转钻及电机型号,并对履带底盘、工作平台、临时支护、钻臂装置等进行了具体方案设计;利用PROE建立了双臂钻车三维模型,同时对其进行了稳定性分析,确定了钻车整体质心位置及最大爬坡角度。其次,通过对双臂钻车钻臂工作特点分析,建立出钻臂各关节位姿关系图,利用D-H法建立钻臂关节正运动