基于并行计算的数据流处理方法研究

被引量 : 32次 | 上传用户:aaatzh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
量大流速快的数据流挖掘已经成为当今国际学术界大数据处理的研究热点,与静态存储的数据相比,这些数据是连续实时获得的单次扫描数据。对于快速时变的数据流,在有限的内存资源下无法存储全部的数据流数据,如何精确地增量挖掘其连续变化趋势和发现隐藏的相关性对数据流的实时分析与处理带来了巨大的挑战,另一方面,数据流处理时滞也成为制约数据流挖掘的一个尖锐瓶颈问题。基于以上问题,本文研究了数据流趋势和相关性分析的融合并行计算模型和算法,将数据流挖掘与基于CPU (Central Process Unit)和GPU(Graphic Process Unit)的高性能计算有机地结合起来,实现动态连续的高效数据流处理方法。论文的主要研究内容可归纳如下:1、针对非线性非平稳时间序列数据流的预测能力不足问题,研究了基于HHT(Hilbert-Huang Transform)的Online-HHT分析方法,进一步结合RBF (Radial Basis Function)神经网络理论,研究了适合在线预测的时间序列数据流模型。该方法通过引入CPU多线程的并行处理方法,设计了时间序列数据流链式可重写滑动窗口的数据读写技术,实现了细粒度分段数据的并行预测分量和分段结果的合成算法。Online-HHT方法既能发挥其对时间序列数据流的时频自适应分析能力,又具有更快的计算处理速度,Online-HHT得到的数据流本征模分量也降低了RBF神经网络预测结构的输入复杂性,对时间序列数据流的趋势预测能力起到很大地提高。实验结果表明,通过与其他方法相比较,本文提出的方法能够处理数据流的短期趋势预测,并且处理速度更快,可应用于在线预测。2、针对在数据流频繁项挖掘中使用模式树造成空间复杂度过大的问题,提出了一种嵌套滑动窗口遗传算法NSWGA (Nested Sliding Window Genetic Algorithm)的数据流频繁项挖掘方法。本算法在滑动窗口中的数据流上分割出嵌套窗口,利用基于MPI的遗传算法并行处理嵌套窗口中的数据流,以及改进初始种群获得方法,实现了嵌套窗口中数据流的频繁模式快速挖掘。在数据流动过程中,采用定期删除过期数据的方法,更新滑动窗口中最新的频繁项集,进而实现增量维护,提高执行效率,快速发现数据流中的频繁项。3、针对由于资源约束造成的数据流处理时滞和效率问题,研究了最新超算技术GPU并行计算结构,根据数据流数据属性的特点和处理的高性能需求,提出了基于GPU的数据流通用处理模型。根据GPU并行计算结构的SIMT模式,采用基本窗口技术的滑动窗口模型,给出了粗粒度和细粒度两个并行计算层面的数据流处理结构,将数据流的数据划分为粒度合适的数据块,然后进行概要数据结构和各种挖掘算法的并行处理。粗粒度并行主要负责任务分工并行化,而细粒度并行负责抽取数据流概要数据结构的并行化,也负责在GPU上完成数据流挖掘和计算密集的线程网格,达到高效率的数据交换和高性能的并行算法。在这个通用数据流处理模型上,提出了基于GPU的数据流分位数并行计算方法GSQ(GPU Stream Quantiles),调用GPU内核程序,使用哈希方法对数据流的数据块并行计算生成概要数据直方图,最后查询得到数据流分位数,实验验证了从处理带宽、响应时间和加速比都有很大的提高。4、针对在CPU上多条数据流相关性分析受到资源和执行顺序的实时性约束限制问题,本文研究提出了CPU和GPU协同处理的跨总线四层滑动窗口框架,用于处理多条数据流的并行计算,把多条数据流完全映射到GPU内存空间,建立数据流SID索引,使用基本子窗口偏移量可以实现不同级别的并行操作。构造了适合多数据流的多级并行计算处理,使用s→Thread的细粒度并行计算和s→Block中粒度的方式,给出了单维多数据流的相关性分析并行算法GSSCCA(GPU Single-Dimensional Stream Canonical Correlation Analysis),实验验证了算法有很好的准确度,极大提高了计算速度。5、对由多数据属性记录实时复杂信息的高维多数据流来说,在计算准确性和性能会出现比单维多数据流处理更为复杂的资源和执行顺序约束问题。针对这个问题,进一步深入研究了高维多数据流的相关性分析数学模型,提出了GPU上的高维多数据流相关性处理的模型与实施的架构以及并行计算方法GMSCCA(GPU Multi-Dimensional Stream Canonical Correlation Analysis)。使用数据立方体和维度约简的技术,在计算资源受限和高效率要求的环境下,可以快速精确地完成计算,并且在高性能和近似精度之间能够很好地平衡。
其他文献
由于社会经济的不断发展,建筑行业也有了突飞猛进的进步,招投标阶段是建筑工程重要的组成部分,会直接影响建筑工程的顺利进行,所以要控制好建筑工程招投标阶段造价。建筑工程
农药职业暴露风险评估对保障农药施用者的人身安全起着举足轻重的作用。国外对此研究较多而且建立了属于他们自己的暴露模型。我国对于职业暴露风险的研究处于起步阶段,缺乏足
有人说传统百货行业遭遇了有史以来的“寒冬”,来自电子商务等多方面的冲击和考验,造成传统百货销售下降、利润空间无限压低,这作为一个根本且迫切需要解决的问题,摆在每个传
走私犯罪是一种严重破坏社会主义市场经济秩序的犯罪行为,属于经济性犯罪。它不仅影响国家税收,而且危害国家安全,败坏社会风气,在经济上和政治上都有极大的危害性。口岸走私犯罪
城市园林景观,作为现代都市生活的唯一绿色生态系统,已逐渐发展成为协调城市环境空间的重要因素。城市园林景观的设计,是实现生态、经济和谐发展的有效途径,也是坚持环境可持
本文简述了观赏植物的定义问题、青海野生观赏植物的总体特征以及地域差异,列举了一些标志性群落和标志种,可能有益于今后的研究。
变论域自适应模糊控制是一种论域动态调整的自适应模糊控制。相比自适应模糊控制,它有着许多优越的性能,如响应速度快、稳态精度高等等。本文以变论域自适应模糊控制为研究背
电脑横机是一种集针织工艺技术、计算机技术和机电一体化技术为一体的针织机械,而全成型电脑横机则在电脑横机的基础上实现了整件针织物的一次成型,无需剪裁,且节省材料和工
我们所身处的这个网络社会,给我们带来欢喜带来忧。我们在享受网络给我们带来的无限欢乐和便利的同时,我们每个人的个人信息也越来越变得不可控,总有那么一双无形的手从连接网络
我国《公司法》第72条和73条对有限责任公司股东优先购买权作了规定,但是这些规定显得较为原则,以至于在具体股权转让实践中会引发纠纷。本文从理论和实证出发,采取比较分析、演