高维数据集SKYLINE计算研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:qianwenlong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Skyline查询在多标准决策、数据挖掘、用户偏好查询、数据库可视化等领域的广泛应用,国内外学者已经提出了多种Skyline算法,但由于Skyline查询方面的研究发展时间尚短,目前对于高维数据的Skyline计算研究还很有限。高维Skyline计算面临以下挑战:(1)维度灾难——即随着数据集规模增大维数增多,Skyline查询的结果数目将随数据集大小(N)和维数(D)呈指数增长。得到的Skyline查询结果集巨大,不能提供有效信息。(2)计算代价高——Skyline算法的开销本来就比较大,其中BNL,SFS和LESS算法最坏情况复杂度均达到了O(kn2), k是查询空间的维数,n是数据对象个数。(3)算法要求高——算法不仅需要正确得出Skyline结果,还应具有渐进性(progressive)和偏好性(preferable),即算法获得Skyline点的响应时间快,并且能根据用户对不同属性的喜好程度给出相应Skyline结果。 本文集中研究了高维数据集的Skyline算法和查询数据集Skyline点输出数目过多的问题。深入分析了高维空间Skyline计算的特点及难点,在此基础上提出了一种基于排序的高维数据集Skyline算法。算法采用一种新颖的预排序结构,并结合已有算法的优点,能够较好地达到算法要求。与现有同类算法相比,具有以下优点:(1)可以根据用户的需求,顺序输出结果,减少用户后期筛选数据点的计算量。(2)根据预处理结构的特点,可以保证优先扫描较好的点,能够快速渐进地返回Skyline结果。(3)采用优化启发式规则减少访问的数据点数目,无需访问整个数据集就能得到Skyline集。理论分析和实验结果表明,本文的算法有很好的渐进性,有效地改善了查询的性能。另外,针对输出结果过多的情况,集中研究了Skyline集的优选策略,从定义和算法的局限性两个方面分析比较了k支配,Skyline频率概念和抽样算法,引入维度权重和Skyline相关度的概念,进一步改进了本文提出的算法,精简了Skyline结果,提高了用户友好度,使Skyline查询结果更加有意义。
其他文献
学位
延迟容忍网络(Delay Tolerant Network, DTN)是一种间歇性连接的无线网络。在这类网络中,主机节点分布稀疏,状态很不稳定,网络拓扑变化频繁,从而导致数据包传输的延迟和丢包
当今社会,IT和互联网技术的蓬勃发展给人们带来了无限机遇和财富,但与此同时,其每时每刻也都在产生着数以亿万计的数据量。如果没有一个好的办法发掘出其中潜在的信息,就无法
基于计算机视觉的视频监控技术利用图象处理技术分析视频序列中的目标及其相互关系,在场景中检测目标、跟踪目标并对目标的行为进行分析与描述。视频监控技术在近十年取得了
近年来纹理合成技术广泛地应用于真实感和非真实感绘制、数据压缩、计算机动画、图像修复和编辑等领域,已经成为计算机图形学、机器视觉和数字图像处理领域的一个重要的研究
随着计算机硬件技术与网络通信技术的快速发展,以并发性为特征的并发系统越来越显示其重要性,并已成为当前计算机软件开发的主流方向。然而由于并发系统本身所具有的复杂性,
多媒体课件应用于教学中,能够提高教学效果和效率。但传统的课件固化了教学内容和策略,固化了知识的表达方式和呈现顺序,不能充分发挥教师在授课过程中的主观能动性和创造性,
学位
随着社会经济的发展,机动车辆与日俱增,随之而来的人身安全越来越受到世人的关注。驾驶员疲劳已经成为引发交通事故的主要因素之一。因此,许多国家都积极开展有关驾驶疲劳的