论文部分内容阅读
随着数据库、物联网技术及各种信息技术的迅猛发展,越来越多的数据从各行各业(如:电信运营商、证券金融银行、互联网终端等)当中产生。海量的数据在日积月累不断地爆发式增长,我们必须探求如何在大数据中获得更多的价值,可见对海量数据的处理和分析的需求迫在眉睫。大数据的主要特点有:海量(volume)、高速(velocity)、准确(veracity)、多样(variety)等,大数据技术发展的起步阶段,国内外研究的主要侧重点是处理海量数据和处理多样的数据类型。然而在当前互联网时代下的大数据大多都存在于金融股票、运营商网络流量、网站实时请求、交通数据流等业务背景下,数据的形式大多是以高速的流式数据形态传递。与存储在传统数据库中的静态数据不同,流式数据作为一种新的数据形态,对数据分析过程的高速性和准确性要求更加的严格。对于流式数据的分析处理需要我们能够快速的记录实时数据流信息并更加准确的保证信息的时效性。本文对以上问题进行了深入的调研与分析,充分研究国内外流数据处理平台和方法的特点与优势,并提出一种大数据环境下的流式数据概念漂移检测算法和并行化的决策树分类算法,主要用于解决不稳定流数据的隐含概念漂移检测和处理。在提出的P-HT并行化决策树分类算法基础上,设计了一种基于分布式流处理平台的流数据并行化建模算法及实时分类评估框架。首先本文将对传统的分类算法进行增量化的改进以适应流数据处理的需求,其次,根据流数据的特点提出概念漂移检测的ADDS算法和基于Storm平台的并行化P-HT决策树分类算法。最后,将两种算法分别进行了实验分析,实验结果ADDS算法有较好的概念漂移探测效果,P-HT决策树分类算法有较高的效率和抗概念漂移性能。