不完整数据上的灵活Top-k支配查询处理研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:fan20090603
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Top-k支配查询返回指定数据集中支配其他数据点最多的前k个数据点。该查询结合了Top-k查询和Skyline查询的优点。由于在很多决策支持应用中的重要作用,Top-k支配查询近年受到了很多学者和业界的重视。然而,已有的算法大多默认数据集是完整的,所以不能运用在不完整数据上。在实际数据库中由于设备故障、隐私保护、数据丢失等原因,很容易出现不完整数据。这就需要针对不完整数据上的查询提出有效的算法。本文分析了不完整数据上的Top-k支配查询定义的局限性,提出了两个更加灵活的不完整数据上的宽松和基于聚合函数的Top-k支配查询问题,以满足相应的应用需求。鉴于此,本文着重研究了处理这两种查询的算法,主要内容包括如下四个方面:  1.引入了基于位图的索引结构来支持不完整对象的快速支配关系判断。  2.首次引入了不完整数据上的宽松Top-k支配查询,给出了其形式化定义,并提出了有效的算法来处理该查询。  3.首次引入了不完整数据上的聚合Top-k支配查询,给出了其形式化定义,并根据聚合函数的特点,分别对sum、max、min这三个聚合函数提出了有效的查询算法。  4.分析了本文所提出算法的正确性和时间复杂度,并在真实和合成数据集上对各个参数下算法的性能进行测试,验证了算法的有效性和稳定性。
其他文献
学位
学位
随着互联网、电子商务、电子政务的快速发展,IT服务(信息技术服务)已经成为全球经济发展的重要支柱。IT服务也逐渐变成我国现代服务业的基础。随着IT发展进入信息业务阶段,IT服
伴随着互联网的迅猛发展,网络中的数据量也成指数增长。这些网络数据很多都是以文本形式出现的。文本作为因特网中重要的信息载体,一直是相关领域的热门研究对象。在商业中,
语音识别技术是人机交互的重要手段,但由于环境噪音、话语人口音等因素,在实际应用环境中的语音识别正确率并不高。如何提高语音识别正确率是一个亟待解决的问题。本文从语音
随着传统的家庭生活和娱乐方式的改变,在整个网络中出现了新型数据类型如语音数据和视频数据等,这些数据类型的出现对整个网络传输提出了新的要求比如传输时延低,数据包丢失
在现代社会中,随着经济的飞快发展,生活水平的不断提高,用电需求量的不断加大,越来越多的无人值守变电站被建立。由于无人值守变电站分布区域广、数量多,设备以及财产的安全保障需
近年来云计算相关的云存储、云服务等技术的研究逐渐成为了学术界研究的热点。作为云服务的主要形式之一,平台即服务PaaS (Platform as a service)提供完整的开发及运行平台,
随着互联网技术的快速发展,图像和视频等多媒体数据呈现出爆炸式的增长趋势,这也对相应的信息处理技术提出了新的挑战。一方面,受限于计算机的处理能力,人们需要将有限的计算资源
传统的Web防火墙和入侵检测系统是一种被动的、静态的防卫的手段。面对不断出现的新攻击方法,传统的被动防御的手段越来越显得力不从心,它们缺乏一种主动应对方法。常常是系统