面向分布式环境的MinTopK算法设计

来源 :南开大学 | 被引量 : 0次 | 上传用户:s574751142
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网行业的快速发展,如何快速高效处理大规模实时数据成为当前研究重点。可持续Top-K查询算法主要是用于流数据的应用上,基于某种函数关系实时选取得分最高的K项。这种算法在一些实时应用中被广泛使用的算法,例如,网络监控、金融分析和实时推荐。MinTopK算法是Di Yang在2011年提出来的可持续Top-K查询算法,是解决以前的算法存在需要重计算的问题。由于重计算操作会需要大量计算资源。MinTopK算法,定义了最小Top-K候选集合,保证后续的查询窗口计算所需要的子集。MinTopK算法维持最小Top-K候选集合,消除需要重计算,比以往的算法有着更好的CPU和内存利用。MinTopK算法是单机串行的算法。由于单机的网络、CPU等资源的限制,无法满足当前大数据量的计算要求。分布式计算方法是一种常见有效的解决方式。  本文研究的是如何将MinTopK算法用于分布式计算,解决流数据的数据量大和计算复杂度高的问题。本文将连续的流数据转化为离散的流数据来处理,设计了并行化的 MinTopK算法的基本模型,同时满足于 MapReduce架构和Spark系统等分布式处理工具的编程模型。从算法的时间复杂度,空间复杂度和通信开销三个方面来,说明本文设计的算法具有无锁的、高效的、空间低和通信量小的特点。  通过实验数据分析,并行化的MinTopK算法相对于原来的算法是具有良好的加速比和扩展性,能够在slide的时间内处理好数据,避免累计时间造成的用户体验不好的问题。通过实验说明Super-Top-K链表的平均长度是2K的,可以将Super-Top-K链表与Top-K候选数据集整合操作在一个计算节点上完成。
其他文献
随着信息时代的到来,信息技术已逐渐渗透社会的各个领域,社会各界已建立起各自的信息管理系统,完成了信息化建没的初级阶段。近年来,数据库技术及网络技术的更新使实现构数据
计算机动画、科学计算可视化和虚拟现实技术是当代计算机图形学的三个热点问题,计算机动画中的水流动画属于自然现象,是比较难以模拟但又有意义的课题。要想真实地模拟自然现
随着生物学研究在分子水平的展开,尤其是人类基因组计划的实施完成,产生了海量的生物数据,并形成了数以百计的生物数据库。这些生物数据后面隐藏着大量的生物学知识,如何有效
随着因特网及其相关技术的发展,分布式的各组织、单位之间的合作已成为一种现实。在这种分布式多域合作环境中,访问控制问题是各合作组织最为关心的一个问题——如何促成资源
云计算是2006年由Google CEO提出的把IT能力如计算力、存储空间、开发平台等作为一种服务提供出去的概念。如今,云计算已经引领了行业的发展趋势。传统的IT公司都已经开始布局
随着企业信息化步伐的加快,企业对于自身信息安全的需求也在逐渐的加强。使用公钥基础设施(PKI)是解决此类问题的关键基础。但是,在我国PKI的发展还远远不能满足企业的需求。
随着移动终端设备的迅速普及以及移动通信技术的不断发展,移动互联网已经全面进入人们的日常工作和生活。同时,基于位置服务(Location Based Service,LBS)也越来越受到人们的重视,
僵尸网络是一种极具威胁性的恶意程序,它可用于大规模网络攻击和网络经济犯罪,对政府、企业和个人的信息安全都构成严重威胁,其复杂的网络布局和通信协议使得针对僵尸网络的防范
在信息技术迅速发展的今天,数据库面临着严峻的安全问题。访问控制是解决数据库安全问题的一种重要方法。本文结合数据库安全和操作系统安全,将基于角色的访问控制方法、文件
Flash是以流控制技术和矢量图形技术等技术为代表的一种多媒体形式。通过将矢量图、位图、音频、动画、交互动作有机地、灵活地结合在一起,Flash这种多媒体形式能够制作出美