基于时间关联性的数据流乱序处理技术

来源 :广西大学 | 被引量 : 0次 | 上传用户:xiaomei52689
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和大数据技术的不断发展与应用,产生了源源不尽的数据流。数据流的产生具有无限性、连续性、动态性和实时性,因此对数据流的分析处理要求快速有效地获取结果,以便保证分析结果的时效性。但是,数据流上的乱序问题会导致数据流处理结果的丢失,给数据流的分析处理带来了巨大挑战。在对数据流的分析研究中,数据流间相似性连接是一项重要基础操作,常用于数据流的挖掘和分析。乱序问题严重破坏了数据流处理结果的完整性。本文研究基于滑动窗口语义下的数据流相似性连接问题,探讨质量驱动下的乱序数据流连接处理方法与技术,开展了以下方面的研究工作:(1)提出一种质量驱动的乱序数据流连接处理技术QJoin。该技术采用缓存技术和对称连接策略保证流元组能被即时分析处理,以降低流元组的平均等待时延,提升基于滑动窗口语义的乱序数据流连接处理的处理速率;基于质量驱动的理念,通过在临近阶段连接处理过程中收集统计数据来优化缓存的大小,使得在满足用户结果质量要求的前提下,通过降低历史数据的内存缓存量,尽可能保证迟到元组的连接处理完整性,从而降低系统的内存开销。真实数据集上的实验结果表明,与传统的数据流乱序处理技术MP-K-slack相比,QJoin技术在满足用户结果质量要求的同时,不仅能够保证数据流的流元组被即时分析处理,还显著降低了内存使用开销。(2)分析数据流速的动态变化特性,针对流速连续增大造成系统持续过载的问题,在QJoin缓存受限的基础上提出了一种系统资源降载策略。该策略在数据流速过高时,基于时间关联性适当地把冗余的元组过滤掉,以此来降低系统负荷,提高对系统持续过载问题的应对能力。真实流数据集的动态变化实验结果表明,基于QJoin的系统资源降载策略能够有效应对数据流速持续增大时系统持续过载的行为,提升了 QJoin技术的性能。本文从适应数据流应用的即时处理和用户结果质量需求的角度,提出了一种新的乱序数据流连接处理技术,有效降低了系统内存开销,提高了数据流相似性连接问题的查询效率,为基于滑动窗口语义的乱序数据流相似性连接问题处理提供了可行有效的解决方案,可以广泛地应用于视频流对象跟踪、趋势监控和谐度分析等领域。论文的研究具有一定的科学意义和应用价值。
其他文献
传统的物资管理系统,由于采用人工手写票据的管理方式,不但工序繁杂、容易导致人为损失,而且人工和物流成本极高。产品结构在持续发展的企业规模的推动下日趋复杂,并且整个市场对
随着我国经济的不断发展,在日常生活和工业生产中产生的固体废物总量也在持续高速增长,这些固体废物种类繁多、性质复杂,给目前的固体废物监控管理工作带来极大的不便,传统的管理
无线传感器网络(Wireless Sensor Networks, WSNs)数据融合(DataAggregation),是指将多个传感器节点的数据进行处理,以消除数据冗余传输,并将融合结果发送到基站的一种技术。通过降
近几年,随着移动互联网技术和地理信息技术的发展,基于位置服务应用逐渐兴起,从而使得空间定位信息的数据量呈现以指数级增长。而在地理位置信息相关的空间数据查询中,RkNN (
系统拥有高的安全性和可靠性意味着工作人员的人身安全能够得到更好的保障,同时也可以提高经济效益和生产效率。容错控制(Fault Tolerant Control, FTC)能在系统发生故障的情
随着中国城镇化脚步的不断跨步,城市人流量及机动车等呈现爆炸式的增长,由此带来的一系列管理问题正给交警部门带来了前所未有的严峻挑战。过去十年,交警部门的信息化建设相
随着多媒体技术的发展,三维重建技术被广泛应用于电影特效、数字城市、三维游戏、人机交互、非物质文化遗产保护等领域。近年来,基于多视图的立体三维重建更是计算机视觉领域
随着信息技术的快速发展,云计算和重复数据删除技术也得到了迅速的发展。云计算凭借其强大的分布式计算能力以及低成本高可靠性的优势,在海量数据处理方面占据主导地位,但是Hado
云计算作为一种新的计算服务模式,通过互联网相连接,利用开放的技术和标准把硬件和软件抽象为动态的资源,对外以服务的形式提供给用户。但作为新兴发展领域,其大部分相关问题
随着互联网技术的不断发展以及网络信息资源的飞速增长,人们对于网络的依赖性越来越强,对网络信息搜索的要求也愈来愈高,而搜索引擎成为了连接个人和网络资源的一个不可或缺的渠