一种面向数据空间的预取方法

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:DisSmile
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,数据管理呈现出海量、异构、分布、共享等新的特点,传统的数据管理系统己无法满足当今用户的需求,为此,Michael Franklin等人提出了一种崭新的数据管理思想一数据空间。而如何为用户提供高效的查询和搜索服务是数据空间面临的重大挑战之一。其中网络延迟和查询处理延迟是影响数据空间查询搜索性能的重要因素。目前解决延迟问题的一种有效方法是预取技术。其主要思想是分析用户的数据访问特点,将用户最可能访问的数据提前预取至缓存,以备用户访问,从而降低访问延迟。为此,本文引入预取技术,以提高数据空间搜索和查询效率。然而,面向数据空间的预取方法研究需要考虑以下几个问题:(1)数据源的异构性。数据空间用户提出查询时,返回结果可能同时包含多种形式的数据,因此数据空间预取方法不能仅针对单一类型的数据;(2)数据预取的全面性。数据空间预取方法需要同时考虑用户提出查询前与提出查询后,不同情况下数据预取策略;(3)查询意图的准确识别。数据空间用户提交的每个查询词,可能包含多个不同意图,如何准确的识别当前用户的查询意图,并把该用户需要的数据以最快的速度返回给用户,对查询效率与用户的满意度有很大的影响。综合考虑以上问题,本文从两个方面对数据空间预取方法展开了研究:(1)当用户尚未提出任何查询时,提出了一种基于动态流行度的初始化预取方法。该方法首先利用数据空间日志记录对兴趣相似的用户进行聚类,计算各用户聚类中查询词的动态流行度。再结合数据空间扩展倒排索引和TF-IDF算法,计算每个实体对象的动态流行度。最后,通过判断用户所属的类,选择该类较为流行的实体作为初始化预取对象;(2)当用户提出查询时,提出了一种基于用户查询意图的预取方法。该方法通过识别用户当前提出查询的意图,对用户可能访问的数据进行预测,其主要过程为:意图特征提取、搜索日志聚类、意图提取、用户查询意图识别、数据预取等。实验结果表明,本文提出的两种预取方法均可显著提高数据空间查询效率,但综合使用两种预取方法,其查询性能大幅优于本文提出的任何一种单一预取方法。
其他文献
如今,数据空间中的信息呈现出多元化和高速化发展趋势,人们关注的焦点不再是信息的来源,而是获取信息的方式。但是,由于数据信息的海量性、异构性和分布性等特点,如何快速、
SAT问题是计算科学中最基础的问题之一,大部分组合逻辑问题都可以归约求解SAT问题上面来,是非常具有理论研究价值和实际应用潜力的问题。对于一个布尔公式,如果存在一组变量
信息产业的发展,把我们带入了一个数字化时代。大量的数字化信息在给人们带来方便的同时,也带来了一系列问题,比如敏感信息可能轻易地被窃取、篡改、非法复制和传播等等。因此必
随着互联网信息的持续爆炸性增长,通用搜索引擎的信息覆盖率和检索精度都在不断下降,发展主题搜索引擎已经成为趋势。由于主题搜索引擎搜索的内容只限于特定主题或专门领域,被通
随着计算机技术的飞速发展,软件系统的数量越来越多,规模越来越大,复杂程度越来越高。在一些大型、长生命周期的软件测试和维护过程中,手工分析已经变得越来越不可行,越来越
伴随着海量数据的不断涌现,“数据充沛,却信息匮乏”的矛盾日益突出。数据挖掘为我们从海量数据中提取或挖掘有用信息提供了有效的技术手段,其中作为数据挖掘重要方法的决策
数据广播是近年来所兴起的信息服务的新领域,它整合了互联网和广播电视网,它可以取所有网站作信源,取数字电视做信道,把网站内容整体推送到家。它继承了前两种媒体的长处(信源丰富
人脸识别的研究成为当前模式识别和人工智能领域的一个研究热点。虽然人类能毫不费力地识别出人脸及其表情,但人脸的自动机器识别却是一项极具挑战的课题,涉及到模式识别、图像
在《长三角沿海水质遥感实时监视和速报的关键技术研究》项目中由于卫星遥感技术能够实现对地表信息连续地大范围、高精度、全天候的同步采集,因此应用卫星遥感技术成为该项目研究的主要手段。本文研究的内容是该项目的一个部分。本文通过聚类算法对海洋卫星遥感数据进行分类,并根据已有的数据,建立相关的预测模型,达到预测未知数据的目的。聚类算法的种类有很多,目前较常用的方法有K均值,K近邻,模糊C均值等等。本文通过对
在电网谐波污染日益严重的今天,对电网有功和无功功率进行准确测量是电力系统计量、计费的基础,也是系统进行无功调节的依据。近年来学术界提出的小波变换功率测量算法能适应功