分布式环境下ToP-K计算问题研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:wuxi_xizi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Top-k计算作为一种偏好查询,是数据库中一个最基本的操作,旨在从给定的数据集中查找出用户可能感兴趣的信息。作为一种数据分析的重要工具,top-k计算在网页搜索、电子商务、数据挖掘、多标准决策支持等领域有着广泛的应用。随着大数据时代的来临,传统的top-k处理技术遇到前所未有的挑战,已经无法满足大数据分析的需求。新环境下的top-k计算主要面临着三个挑战:一是数据规模达到TB或者PB级,传统的单机处理方式不再适用,应该考虑分布式并行计算框架;二是对于面对海量数据集,在分布式环境下,采取怎样的数据划分方法才能够提升并行性能和查询速度;三是传统的top-k查询需要用户给定一个评分函数,而选择一个合适的评分函数却不是件容易的事。  因此,本文对分布式环境下top-k计算的数据划分和并行算法设计的关键技术进行了研究和探索,主要的研究内容包括:  (1)在分布式计算框架下,针对于加权top-k查询问题,提出了类似网格数据划分方式,将原始数据集划分为不同的子数据集,根据用户偏好选取子数据集代替全部数据集进行查询,减少查询数据。针对于高维度中的“空空间”现象,本文在网格划分基础上引入超平面划分。与基于角度和超平面的数据划分方式相比,该方法预处理简单不用进行复杂坐标转换,而且对于较高维度中出现的“空空间”现象依旧适用。实验结果证明在大数据环境下类似网格和超平面数据划分方法查询速度比基于角度划分方法快了接近15%,此外对于数据维度较高时候出现的“空空间”现象(实验中即:d大于等于8),比基于角度划分方法,查询结果更准确,同时具有良好的可扩展性。  (2)针对于传统的top-k查询需要用户给定一个评分函数,而某些用户难以给出一个合理的评分函数这一问题。在结合已有的单机算法基础上提出了五种在分布式平台下基于度量空间的并行top-k dominating查询算法。算法1利用skyline集合中一定包含top-1 dominating结果这一结论,分区并行计算skyline,来加快处理速度;同时利用候选集的支配关系,避免k次重复计算。算法2利用k-skyband集合中包含所有top-kdominating结果这一结论,每个分区并行计算k-skyband,避免k次循环。算法3在算法1基础上,首先结合ANN对原始数据进行筛选,加快对skyline的计算。算法4为一种基于集合ANN和k-skyband的剪枝算法,该算法利用集合ANN预先剪枝,再求k-skyband,最后获取top-k dominating,加快计算k-skyband速度。算法5为一种基于排序剪枝的top-kdominating算法,该算法根据查询输入集合Q对数据集排序,建立索引表,采用round-robin方式读取索引表,避免遍历原始数据集来计算每个候选集的支配分数。实验结果表明这五种并行算法减少了数据之间的支配比较次数,提高了查询效率,效果明显,且大部分情况下算法4的查询效果最好。
其他文献
无线多跳网络(无线ad hoc网络)以其灵活的组网方式在军事战争、反恐救灾等领域获得广泛应用。由于无线多跳网络带宽有限,拓扑结构的动态变化,及节点在处理能力、通信协议等方
用户行为检测与识别作为复杂事件检测领域中的重要研究对象,具有广阔的应用前景和巨大的经济价值。特别是随着电子、通信等技术的发展,无线传感器得到了广泛的应用,基于无线
随着网络的普及和深入,网络蠕虫对计算机系统安全和网络安全的威胁日益增加,尤其是网络蠕虫的多样化传播途径和复杂的应用环境使网络蠕虫的爆发频率激增。而且随着计算机技术
工作流技术是实现企业业务过程建模、业务过程仿真分析、业务过程优化、业务过程管理和集合,最终实现业务过程自动化的核心技术。如何让工作流系统实现异构、分布和松散耦合
智能视频监控技术能自主对场景中的异常行为进行识别,面对日渐严峻的安全形势,其应用越来越广泛。目前大多数异常行为分析系统单纯从图像像素角度进行分析,不同场景下识别复
随着计算机技术、网络技术和分布式技术的发展,计算机应用正从单用户工作模式向多用户协同工作方向发展。计算机支持的协同设计就是在这种背景下产生的,其思想体现了人们的工作
传统的网络管理平台由于受到管理域的限制,只能管理内部用户的设备以及边界路由器,无法区分不同的外部用户的流量行为,也无法给出不同应用的性能评估,不能满足精细化网管的需
虹膜识别技术因虹膜的优秀生物特性,在众多的身份鉴别技术中脱颖而出,被列为最为安全与精确的身份鉴别技术,具有广阔的应用前景与重要的学术研究价值。由于虹膜识别技术应用
伴随着网络技术的迅猛发展,基于网络的企业级应用系统的开发与应用日益普及。随着系统规模的日益扩大,系统的数据安全越来越受到企业的重视。为此,人们设计了各种各样的权限
随着互联网的飞速发展,一方面网络已成为人们获取和发布信息的重要工具。另一方面越来越多的人通过网络表达自己的利益诉求以及思想情绪。因此,对网络上发布的信息进行必要的、