基于大数据平台的决策树分类算法及并行化研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:nayinian2688
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据库、物联网技术及各种信息技术的迅猛发展,越来越多的数据从各行各业(如:电信运营商、证券金融银行、互联网终端等)当中产生。海量的数据在日积月累不断地爆发式增长,我们必须探求如何在大数据中获得更多的价值,可见对海量数据的处理和分析的需求迫在眉睫。大数据的主要特点有:海量(volume)、高速(velocity)、准确(veracity)、多样(variety)等,大数据技术发展的起步阶段,国内外研究的主要侧重点是处理海量数据和处理多样的数据类型。然而在当前互联网时代下的大数据大多都存在于金融股票、运营商网络流量、网站实时请求、交通数据流等业务背景下,数据的形式大多是以高速的流式数据形态传递。与存储在传统数据库中的静态数据不同,流式数据作为一种新的数据形态,对数据分析过程的高速性和准确性要求更加的严格。对于流式数据的分析处理需要我们能够快速的记录实时数据流信息并更加准确的保证信息的时效性。本文对以上问题进行了深入的调研与分析,充分研究国内外流数据处理平台和方法的特点与优势,并提出一种大数据环境下的流式数据概念漂移检测算法和并行化的决策树分类算法,主要用于解决不稳定流数据的隐含概念漂移检测和处理。在提出的P-HT并行化决策树分类算法基础上,设计了一种基于分布式流处理平台的流数据并行化建模算法及实时分类评估框架。首先本文将对传统的分类算法进行增量化的改进以适应流数据处理的需求,其次,根据流数据的特点提出概念漂移检测的ADDS算法和基于Storm平台的并行化P-HT决策树分类算法。最后,将两种算法分别进行了实验分析,实验结果ADDS算法有较好的概念漂移探测效果,P-HT决策树分类算法有较高的效率和抗概念漂移性能。
其他文献
目的了解广东省中山市社区居民常见慢性病的患病情况及影响因素。方法采用随机抽样的方法,抽取中山市2个社区的居民进行问卷调查。结果 2 639名调查对象中,自我报告高血压患
目的观察电针内关预处理对大鼠缺血再灌注损伤心肌的影响,并探讨电针预处理防治心肌缺血再灌注损伤的作用机制。方法将40只SD雄性大鼠随机分为假手术组、缺血再灌注组(模型组)
通过对天津市高校青年体育教师基本功比赛的成绩进行描述,在分析青年体育教师说课、体能、运动技能(专项和选项)状况的前提下,探讨性别、年龄、职称等教师个体特征变量对青年
中国伊斯兰传统经学虽是伊斯兰经学的一个分支,但无疑具备了中国的特点和特色,然其主旨却始终坚持着经训传统。本文重点探讨了伊斯兰教的经、经学及经学传统、中国伊斯兰传统
马图里迪教义学派是10世纪伊斯兰教正统教义学派之一,其12世纪的代表人物纳吉姆丁·纳萨菲对中国伊斯兰经堂教育产生了重要影响。纳萨菲的教义学思想适中而不偏倚、温和而不
"类"在黑格尔哲学当中显得尤为重要,它是理解整个黑格尔哲学的基础和源头。黑格尔哲学当中的"类"概念包含两方面的内容,一方面指外在的思维形式,另一方面是指内在的事物本质
现有的国际直接投资理论难以准确解释我国对外直接投资的性质和动因。必须从实际出发 ,探索我国企业对外直接投资的理论依据 ,构建我国对外直接投资理论体系 ,指导我国企业对
近年来,烟草商业企业高度重视科技创新工作,将科技创新工作纳入各项考核中,采取了很多措施,取得了一定成效。但由于各种原因,科技创新工作仍是一些企业的"软肋"。在今后的发