高效关键词Skyline查询算法研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:vlee46
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统Skyline查询没有考虑用户的个人偏好,对所有用户返回相同的结果集。关键词Skyline查询,结合对象的标签、评论等文本信息,基于用户输入的关键词,返回符合用户偏好的Skyline点集。现有的关键词Skyline查询通常采用两个独立的步骤:先使用关键词过滤出相关数据集,然后在此集合上进行Skyline查询得到最终结果集。由于中间结果集是关键词相关的,无法预先构建索引,因此第二阶段只能采用无索引的Skyline算法(如BNL和DC等),耗时很长而且不满足渐进性。此外,随着大数据时代的到来,单节点计算难以支持海量数据的Skyline查询。针对以上问题,本文提出了两种新的关键词Skyline查询算法,主要研究成果如下:(1)提出了一种基于层次结构的关键词Skyline算法LKS(Layer-based Keyword Skyline Algorithm),包括离线生成的分层Skyline索引结构和基于文本特征值的关键词过滤和裁剪算法,能有效裁剪无效节点,避免全局比对,不仅提高查询效率,而且还缩短了响应时间。(2)通过对Map-Reduce算法模型的研究和总结,提出了一种新的并行算法(Grid Partitioning Keyword Skyline computation algorithm based on MapReduce, MR-GPKS),使用Hadoop来解决海量数据的关键词Skyline查询。MR-GPKS使用网格来对数据空间进行划分,因而可以根据网格之间的支配关系,提前排除那些被支配的网格空间。此外,对节点中的文本属性,离线生成网格倒排索引,在线查询时可以快速锁定有效的网格空间。整个过程都使用Map-Reduce模型进行处理,有效提高海量数据的处理效率。对比实验表明,两种算法都取得了较好的效果,有效提高了关键词Skyline查询的效率。
其他文献
产品创新推理是制造业在市场竞争中取胜的关键,而产品的创新性主要取决于产品设计的概念设计阶段。功能模型是概念设计的核心处理对象,如何对功能模型进行快速有效的创新推理
动态拓扑是MANET网络最主要的特征。MANET网络拓扑的动态变化导致路径频繁中断,是造成网络性能下降的重要因素。因此,设计一种有效的MANET路径稳定策略,实现稳定路径的目标,
前处理是复杂问题数值模拟的主要性能瓶颈,涉及大量人工干预,其效率严重依赖于用户经验。可靠高效的自动前处理算法是提高数值模拟效率和精度的关键。前处理研究主要包含2项内
随着计算机网络技术和应用的迅猛发展,人们对互联网的需求也进一步提高,希望互联网能够有效地提供他们所需的各种服务。计算机网络及其应用的研究重心呈现出向应用层延伸的特征
随着计算机网络和移动电话技术的迅猛发展,人们越来越迫切需要发展一定范围内的无线数据与语音通信。AdHoc网络是一种没有有线基础设施支持的移动网络,网络中的节点均由移动主
Internet已经成为人们获取信息资源和进行信息交流的一个重要途径,随着Web信息的日益增长,要想在信息量浩如烟海的互联网上搜索浏览自己需要的信息,成为了一项极具挑战的工作
人脸跟踪是计算机视觉和模式识别领域的一个重要研究课题。在基于内容的视频检索、数字视频处理、智能人机接口、视觉监测等方面有着重要的应用价值。但在实际应用中,人脸跟
在云计算应用日益广泛的今天,提高云服务的质量与数据中心的资源利用率,减少云服务商的运营成本与客户的开销具有及其重要的应用价值。论文在国家863计划支持下,针对虚拟机管
近年来,随着可持续发展战略的提出和确立,土地作为一种不可再生资源,它的保护和利用日益为人们所关注,合理规划土地对我国现代化建设有着举足轻重的意义。宗地管理系统对保护
Internet技术的迅速发展,使得网络逐渐成为人们获取知识的主要途径之一。近年来,E-learning的研究和应用飞速发展,为用户提供了前所未有的丰富的学习资源和灵活的学习方式。