子空间SKYLINE查询若干关键问题的研究

来源 :复旦大学 | 被引量 : 2次 | 上传用户:lllllllllllllvvvvvvv
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Skyline查询技术是近年来数据库邻域的一个研究重点和热点,这主要是因为该查询技术广泛应用于多标准决策系统、城市导航系统、数据挖掘和可视化、智能防御系统、以及地理信息系统等领域。现有的相关工作主要集中于研究全空间上的skyline查询,即它们假定用户所提交的是单个查询,并且查询所涉及的维度包含对象的所有属性。然而,在实际应用中,由于对象具有较大规模的全空间,而用户通常只对部分子空间上的skyline对象集合感兴趣;同时,不同的用户可能关注不同的子空间,因此,现有的算法和数据结构无法满足子空间skyline查询在有效性和可扩展性上的需求。基于此,本文着重研究子空间skyline查询技术中的效率问题,主要包括如下3个关键方面:(1)有效解析用户提交的子空间skyline查询现有的研究工作不考虑传统关系操作(如选择、卡氏积和连接等)存在于子空间skyline查询的情况,而且没有考虑系统中同时存在多个不同子空间skyline查询的情况。因此,本文的一个重要工作是从提高查询性能出发,在逻辑层面上,考虑如何优化它们之间的执行顺序来缩减子空间skyline查询的时间开销。我们将子空间skyline查询计算作为一个特殊的关系操作符(称之为子空间skyline操作符),研究它与传统关系操作符间执行顺序变换的等价规则,以及达到这种等价变换所需要的附加条件。从而,基于这些等价变换规则和附加条件,通过改变子空间skyline操作符与传统关系操作符之间的执行顺序来有效提高查询的效率。另一方面,我们提供充分的理论证明来表明这些等价变换规则的正确性;同时,给出执行顺序变换前后的时间开销的理论值来表明这些等价变换规则的有效性。最后,我们实施了大量的实验,实验结果表明,变换之后的时间开销显著低于变换之前的时间开销。(2)有效实施用户提交的子空间skyline查询由于传统关系操作的实施算法现已较成熟,而现有关于在物理层面上实施子空间skyline计算的相关工作比较有限,而且它们的计算效率通常较低。因此,本文的第二个重要工作是考虑如何有效实施子空间skyline计算。我们从减少对象间的比较次数出发,基于正规格结构,给出一种有效进行任意单个子空间上skyline计算的有效方法CDCA。CDCA算法通过单元格之间的三种支配关系来缩减对象间的比较次数,从而有效降低子空间skyline计算的时间开销。另一方面,为了有效降低多个并发的子空间skyline查询的总时间开销,我们给出子空间树序列的概念。基于子空间树序列,我们有效确定各子空间skyline查询的执行顺序,并提出一种优化其执行性能的高效算法APMSSQ。APMSSQ算法利用如下两个方面来优化多个子空间skyline查询的总响应时间:①各子空间skyline对象集合之间的关系;以及②树路径上的各节点间的共享重复值查找策略。理论分析和实验结果表明,我们的方法显著优于现有的相关方法。(3)在分布式网络环境中,高效处理多个子空间上的skyline查询由于分布式网络是现有多数企业和单位使用的网络模式,而早期的C/S架构的网络能够方便地升级到超级节点架构(Super Peer Architecture:SPA)的分布式网络,因此,本文的第三个重要工作是研究在SPA架构的分布式网络中,如何高效进行多个不同子空间上的skyline查询。与以往研究簇划分和路由策略的相关工作不同,我们主要研究子空间skyline查询本身,而假定分布式网络的簇划分和路由策略已经确定。由于网络传输代价以及子空间skyline计算的时间开销决定了在SPA架构的分布式网络中,返回子空间skyline查询结果集的效率。因此,我们主要从优化这两方面代价入手给出有效的解决方法。本文所给出的解决方法能够通过控制单个网络节点对之间的冗余数据传输以及采用对象编码机制来有效降低网络节点间的数据传输量;并使用本文给出的多子空间skyline查询优化算法APMSSQ(见本文的第二个重要工作)来有效进行子空间skyline计算。理论分析和实验结果表明,我们的方法显著优于现有的相关方法。
其他文献
介绍了无缝钢管生产线上步进式冷床的电气传动和控制系统。通过使用SINAMICS系列变频器实现了步进式冷床升降装置的主从运动控制,包括快速制动及速度切换时的快速能量回馈;以S7
体可视化技术广泛应用于医学、气象学、地质学等多个领域,是当前发展最为迅速的技术之一。本文主要就体绘制加速算法和传递函数设计进行研究。光线投射算法是绘制质量最高的
目前,信息系统已从单一应用、单一组织逐步扩展到不同组织、行业和国家,数据的产生方式、来源和模式多种多样,数据量急剧增大。由于数据来源复杂、质量参差不齐,由此带来决策
为了解拉萨市藏汉学前幼儿数学入学准备的差异性,本研究从数、量、形、模式认知及平面几何图形认知等五个维度对拉萨市区及周边县5所幼儿园240名藏汉幼儿进行测评。结果显示:藏
分形图像编码是近年来提出的一种编码技术,并很快以其思路新颖、压缩比高等优点吸引了广大编码研究者的注意。与此同时,随着网络技术的发展,图像/视频业务在多媒体通信中占据
随着精密加工的发展以及人们对高质量产品需求的增长,精密制造业中对质量控制的要求越来越高。而与传统的接触式测量方法相比,光学测量方法具有非接触,无磨损,响应速度快,柔
乳腺癌是一类常发的恶性肿瘤,严重威胁着妇女健康。调查数据表明,每年全球女性乳腺癌患者的发病率约37.5/10万,其发病率为妇女恶性肿瘤发病率的22.8%,病死率约13.2/10.07Y,为所有肿瘤病死
在党和国家有关文件精神的指导下,结合实际工作经验,文章对构建大学生社会实践评价体系进行了探讨,以期有助于进一步促进教育思想和观念的变革,提高对实践教育的认识。同时还
目的:探讨缺铁性贫血与冠状动脉造影(CAG )确诊的老年冠心病的发生及严重程度。方法测定入选冠心病患者的各项临床指标,根据CAG、血红蛋白(Hb)等结果分为缺铁性贫血组与非贫血组,单