基于查询日志的数据库关键字查询研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:xianshengh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据库系统是用来组织、存储和管理数据的仓库,它在企业、部门乃至个人的日常生产生活等诸多领域都得到了广泛的应用。随着现代互联网的迅速发展,信息呈现爆炸式增长,数据库系统存储的信息不断增多,用户搜索这些信息的需求也日益激增。传统的数据库访问方式需要用户掌握结构化的查询语言,了解并且.熟悉底层的数据模式,而这对于大多数的普通用户来说是非常复杂的。受到关键字查询在Web搜索引擎上获得巨大成功的影响,近些年来在数据库支持关键字查询得到了来自数据库领域和信息检索领域研究人员的广泛关注并且成为新兴的研究热点。不同于传统的数据库查询方式,数据库上的关键字查询简单易用,查询没有固定的格式限制,极大地减轻了用户学习和记忆的压力。但是这也给如何开发一个高效健壮的关键字查询系统带来了巨大挑战。传统的数据库查询的结果是一组孤立的元组,而关键字杏询则需要从数据库的不同表中组合与关键字匹配的元组来形成最终结果,这会导致查询的搜索空间急剧膨胀。一般来讲,关键字查询的搜索空间与查询中的关键字数目成指数型关系。还有关键字查询经常是脏的,用户的查询中经常包含一些不相关或者不正确的词,而通常这些脏查询会对随后的查询处理的效率和准确性产生负面的影响。为了解决查询的搜索空间指数性爆炸这一问题,一个被称作查询清理的预处理步骤被引入进来,它被用来清理用户提交的原始查询并抽取出高质量的查询项。这个新增的预处理步骤不仅改进后续查询结果的质量,而且还大大地降低了后续的查询搜索算法的搜索空间。但是它仍然存在一些问题,即引入的查询清理算法并没有考虑到用户偏好,而这样的偏好可以用来进一步改进查询清理的质量。基于模式图的关键字查询方法在它的执行过程中会生成大量的候选网络,其中有些候选网络所表示的关系没有实际意义的或者极少被用户访问,而有些候选网络所表示的关系则史为用户所偏好,即用户经常访问这类关系。而传统的基于模式图的方法通常按照候选网络大小递增的顺序依次求解候选网络,而不是按照用户对候选网络的偏好程度对候选网络求解,这样做也会影响到整个查询执行的效率和查询结果的质量。本文主要针对数据库关键字查询中存在的上述问题,借助于记录用户行为的查询日志,提出两种基于查询日志方法扩展原有的查询清理方法以进一步改进查询清理的质量。我们还使用树数据挖掘算法来对用户的查询日志进行挖掘来获取用户偏好,并通过它来改进基于模式图的关键字查询方法。本文的主要工作及成果如下:(1)针对提出的查询清理算法中的原始得分函数,在它的基础上提出了两种利用查询日志进行扩展的方法。原始的得分函数仅仅根据数据库来对产生的项进行评分,没有考虑到该项在日志中的使用行为。我们基于查询日志使用两种不同方式来对产生的项进行评分,从而获得一个项的日志评分。最后再将得到的日志评分和原始的评分按照某种方式结合起来形成项的最终评分。我们给出的实验证明提出的两种改进方法都在一定程度上改进查询清理的质量,获得了小错的效果。(2)通过使用查询日志来进一步改进传统的基于模式图的查询方法。一般地,基于模式图的查询算法通常按两个步骤处理查询:候选网络生成和候选网络求解。我们引入查询日志来记录用户提交的查询和他们选择的候选网络。然后将数据挖掘算法引入到关键字查询中来,使用已有的树挖掘算法来对用户的查询日志进行挖掘,以获取用户偏好的频繁模式树。然后又引入树编辑距离来定义生成的候选网络与挖掘得到的频繁模式树的相似度,基于此对生成的候选网络进行排序并优先求解排位靠前的候选网络,以此来改进查询的质量和效率。
其他文献
随着互联网的高速发展及其各种Web应用的快速增长,网络上的信息规模急剧扩大。网络已经成为人们生活中重要的知识库,人们对高效地获取信息的需求尤为迫切。在网络的海量数据
随着无线技术的高速发展,各类有着严格时间与错误率限制的无线多播应用犹如雨后春笋。然而无线网固有的带宽不稳定、传输质量易受环境干扰等特点与多播应用的要求存在着极大的
互联网的普及和信息技术的发展在很大的程度上方便了人们的生活,但与此同时,也提出了新的挑战。当用户在计算机上使用各种信息技术时,用户的个人信息和隐私的暴露已经成为一
信息检索是指信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的过程和技术。信息检索的核心问题之一是排序问题,即决定哪些信息是相关的、符合用户的习信息需
由于文本检索的巨大成功,目前主流的图像搜索引擎如Google、百度等对图像检索采用的还是基于文本关键词的方式,即根据图像周围的文本来判断一幅图像与查询的相关性。由于文本
软件技术的快速发展,促使其应用模式呈现出网络化、平台化和服务化的特点。分布式计算、并行计算、网格计算等计算机技术的不断成熟,推动了新型软件架构的不断革新。在这种背
随着企业数据的种类的扩展,面向不同数据类型的异构数据的集成访问成为新的发展方向。本文就面向一般关系型数据、空间数据、实时数据的数据集成访问中间件进行了研究,设计并实
近年来随着网络和多媒体技术的飞速发展,网络多媒体服务(如视频会议、视频点播,数据分发和网络游戏等)应用成为网络应用的大势所趋,如果应用传统通信方式,它们大都需要消耗很
三维点云模型是以离散采样点为基元的几何模型,是三维模型的一种表示方式。三维点云模型数据结构简单、存储空间紧凑,而且由于不需要存储和处理复杂的拓扑信息,非常适于表示
集群系统(cluster)凭着其高可靠性、高可扩展性和高性价比等优势成为并行计算结构中最受欢迎的模型之一。其中曙光4000A和KD60平台是两种具有代表性的高性能集群系统。并行编