不确定数据集上的Skyline查询处理算法研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户:twesai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据本身存在不确定性、采集的随机性及不精确性,如在地质测量、天文观测、气象、传感网络、移动对象搜索和数据集成等实际应用中,由于复杂的外界因素的影响使得采集到的数据不确定、不完整和不精确。对这些不确定的海量数据集进行挖掘时,常规的方法是通过数据清洗、集成等预处理后再进行挖掘。然而,经过加工后的数据通常丢失了大量的原始信息,从而导致挖掘效果难于满足需求。近年来,出现了一种新型数据集-不确定数据集,即将源数据中的不确定性用概率(或置信度)表达。不确定数据集上的数据挖掘也随之成为近年来的研究热点。其中不确定数据集上的Skyline挖掘是一个重要的研究领域。尽管Skyline挖掘获得了广泛的研究,但由于现有的方法没有将数据集的不确定性考虑到计算模型中,因而无法实现在该类数据集上进行Skyline挖掘。经过广泛细致的研究工作后,本文提出了有效的方法来解决该类问题。通过对现有的不确定数据集上Skyline及Top-k查询算法的研究,结合了数据流的特性,本文提出了全新的用于不确定数据集上的一系列Skyline查询维护算法,并基于真实数据及合成数据进行了大量的实验验证,试验结果表明本文设计的算法能高效且有效地在不确定数据集上进行Skyline挖掘。本文的主要研究成果如下:1)针对稀疏实例分布数据集,提出了基于多维网格索引的GIKS(Grid indexedk-Skyline)算法。该算法的核心思想是利用网格索引进行自底向上的最优化访问,即把数据空间分割为多个易于处理的小区域,利用网格的优势分而治之,从而快速地响应用户发出的查询请求。GIKS算法还使用了IDM(InstancesDistribution Map)检索结构在空间遍历过程中实现信息共享,大幅降低时间复杂度。2)针对密集实例分布数据集,提出了基于分层树索引的BRKS方法。当在实例密度很大的数据集上进行k-Skvline查询时,本文又提出了一种自顶向下的BRKS(Bounding and Refining k-Skyline)方法,它以均值评估为基础,利用分层树进行限界求精,从而渐进地计算对象的Skyline概率。3)将不确定数据集扩展到数据流上,提出了概率数据流的Skyline查询维护方法。对概率数据流上的Skyline查询问题进行了深入研究,并基于“可能世界”语义对概率数据流上的Skyline查询计算问题首次进行了建模。4)针对概率数据流上的skyline查询处理,本文设计了一种高效的查询处理算法SKY-PDS(Skyline over Probabilistic Data Stream)。与确定型数据流上的skyline查询处理不同,SKY-PDS算法主要涉及到两个基本问题:①如何驹绲靥蕴切┎辉儆谢峒尤隨kyline结果集的对象,以减少内存开销?②如何高效地判定对象的状态(是否作为Skyline对象输出),即如何减少对“支配关系”的检测次数以便降低CPU负荷?针对以上两个基本问题,本文先后提出了概率定界、逐步求精等优化措施对算法从空间与时间上进行了系统地优化。缜密的理论分析和详尽的实验对比表明,SKY-PDS算法在空间与时间上都具有较高的性能,且算法具备良好的扩展性。5)对于本文设计的多个算法均进行了详尽的试验验证,试验数据来源于两方面:真实NBA数据以及通过标准数据生成算法产生的不同分布特性的数据集:独立分布、相关分布及反相关分布数据集。对于每组试验结果都进行了详细的分析。
其他文献
学位
云存储是在云计算的概念上延伸和发展出来的一个新的概念,是一种新兴的网络存储技术。云存储利用集群应用和分布式文件系统等软件,将网络中大量类型不同、容量不同的存储设备
语音不仅是人类日常交流中的重要工具,也是百万年来哺乳动物大脑进化的结果。这项复杂的功能是区分人类和其他动物的重要标志,包括了大脑对语言从声音到图形乃至抽象符号层面
随着计算机软件对人们生活的影响的逐渐扩大,人们对软件的数量和质量的需求也日益提高。在软件开发和维护过程中存在的一系列问题,被称为“软件危机”。其中,一个重要因素就
移动Ad Hoc网络是目前国内外计算机网络技术研究领域的一个热点,路由协议是AdHoc网络的核心技术之一。为了提高AdHoc网络路由协议的性能,国内外很多学者和专家开始研究基于位
在分布式协作开发环境中进行系统设计工作时,要求处于不同机器上的设计工具之间能够通过网络相互通信,从而使得各个设计工具可以相互协作,这需要开发网络通信软件来提供相应
针对XML文档的访问控制保证XML文档中的敏感信息不会受到非授权的访问。用户对文档的访问包括读操作和更新操作,现有的XML文档访问控制研究多数都以读操作为例或对更新操作的
语音识别经过半个世纪的发展,其理论研究已经取得了一定的成果,在实验室环境中取得了极高的识别率,并且已经从实验室走向实用。然而离人们所期望的语音识别能力跟人一样的目
分布式垂直搜索引擎技术是传统的垂直搜索引擎技术和分布式技术的结合,它利用多台计算机构成一个分布式计算与处理集群,可以解决垂直搜索引擎面对大规模网页数据时容易出现的响
计算机艺术是一门科学与艺术相结合的新兴交叉学科,它向人类提供了一种全新的艺术创作手段,展示了全新的艺术思想和艺术作品。近年来,非真实感绘制技术(Non—Photorealistic Ren