XML数据流上的TOP-K关键字查询处理

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:foxdeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于其灵活性和可扩展性,XML成为越来越多互联网上数据的表示标准。在一类应用中,XML数据表现为源源不断到来的数据片断,在这类应用中的XML数据称为XML数据流。XML数据流的应用包括网络信息订阅与发布、电子邮件监测等。在许多应用中,如果用户对XML数据流中数据的模式不了解,则难以写出合适的查询,因而利用关键字对XML数据流进行查询成为一种需要。本文研究了一种面向XML数据流的关键字查询-XML数据流上的TOP-K关键字查询。这类查询在模式未知的情况下,根据用户给出的关键字集合和返回结果数量K,随时给出接收到数据中前K个与关键字集合最相关的XML数据片断。为了有效地处理XML数据流上的TOP-K关键字查询,根据用户需求的不同,本文分别研究了三种XML数据流上的TOP-K关键字查询,并设计了相应算法,其主要研究成果如下:(1)提出了基于打分策略的XML数据流上的TOP-K关键字查询处理方法。具体的,设计了一种打分策略RSR来评价查询结果的相关性;并提出了基于RSR打分策略的XML数据流上的TOP-K关键字查询;提出了一种基于栈的TKS算法,并对算法的时间和空间复杂性进行了分析;设计了一种过滤方法来提高算法的效率和节省存储空间;实验结果表明该算法具有很高的效率和可扩展性。(2)提出了基于skyline的XML数据流上的TOP-K关键字查询处理方法。具体的,考虑到相同的关键字查询可能有不同的查询需求,skyline被应用于XML数据流上的关键字查询,这是XML数据上关键字查询里对查询结果选择的一个新角度;提出了一种新颖的XML数据流上的TOP-K关键字查询:基于松弛skyline的XML数据流上的TOP-K关键字查询,简称为LSK查询;提出了一种有效的基于松弛skyline的XML数据流上的TOP-K关键字查询算法;在LSK查询的基础上提出了多查询下的基于松弛Skyline的XML数据流上的TOP-K关键字查询,简称为MLSK查询;提出了一种有效支持MLSK查询的处理算法MULSK算法;实验结果表明这些算法具有很高的效率和可扩展性。(3)提出了分布式环境下的XML数据流上的TOP-K关键字查询处理。具体的,设计了一种结点上的有效的过滤策略来降低网络吞吐量;证明了使得网络吞吐量最小的网络路由结构设计问题是一个NPC问题;提出了一种设计网络路由结构的启发式算法;通过模拟实验表明算法具有很高的效率和可扩展性,并验证了该算法的有效性。
其他文献
随着普适计算技术的迅速发展,人们越来越期待理想的普适计算环境为他们提供更为便捷的服务。其中,对用户位置的准确估计是实现普适环境下众多服务的重要前提和基础。尽管GPS
由于事件本体(Event Ontology)所表示的知识更接近于人类对知识的理解与分析过程,使得事件本体越来越受到学术界的重视。同时,时间和空间是构成事件的基本元素,能够更加准确
在海量数据、语义数据、数据服务的互联网发展背景下,数据网格的应用出现了诸多与以往不一样的新特征。DartGrid是一个面向异质异构的数据语义集成解决方法,而中医药共享统一
三维场景漫游是指,用户通过某些设备,与屏幕上显示的真实或虚构的三维场景环境进行交互操作。这种操作能实现在虚拟环境里模拟人在真实场景中的漫游。场景漫游作为虚拟现实领
近年来,Internet迅猛发展,并逐渐成为一种面向数据、语音、视频和多媒体应用等多种业务的综合载体。而各种新的多媒体业务的出现又对网络的服务质量提出了新的要求。但是,传
随着高速公路网建设的日臻完善,利用较为完备的视频监控系统对路面状况进行实时监控成为提高道路运营质量的一种重要手段。基于视频图像的目标检测和数据采集分析为更大程度
在低辐射航天环境下,由于空间粒子辐射等因素的影响,除引发处理器发生瞬时故障外,还会引起频发的、更加致命的间歇故障。传统单核处理器无法采用纯软件的手段实现容错,而多核
多源图像融合技术是将来自同一场景的不同图像传感器的多幅图像进行综合处理,得到一幅融合后的图像。与单一图像传感器所获得的图像相比,融合后的图像对场景提供更全面、精准、
基于位置的服务极大地方便了我们的生活,寻找附近的好友、推荐附近的热门餐馆等应用无一不包含了基于位置的服务。用户在享受基于位置服务的同时,会不经意地泄露敏感的位置隐
随着互联网的快速发展,当前每天都将产生海量的数据。为了存储这些数据,独立磁盘冗余阵列(RAID)利用多个磁盘提升系统容量和读写性能。在大规模RAID系统中,由于磁盘数较多,磁