基于语义信息的面向数据库的Top-k关键字查询技术

来源 :东北大学 | 被引量 : 0次 | 上传用户:moon_pine
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
越来越多的信息被存储在关系数据库中,面向关系数据库的关键字查询的需求也随之增多。尽管许多数据库管理系统支持全文本信息搜索,但是,在这些系统中,用户必须预先知道所要查询的关系数据库的模式结构,并且通过某种结构化的查询语言查询数据库。Web关键字搜索的巨大成功,使面向关系数据库的关键字查询成为一个崭新的研究领域。然而,面向关系数据库的关键字查询面临着三个挑战:(1)查询结果是由分散在不同关系表中的元组连接而成。(2)计算结果的相关度时,必须计算分散在各个关系表中的关键字与查询关键字之间的相关度。(3)与文本数据库相比,关系数据库的结构更复杂。因此,传统信息搜索领域的评分函数以及搜索算法不能直接应用到数据库关键字搜索中。本文通过研究元组的语义特性以及元组间的语义关系,提出一种新的评分函数。该评分函数不仅涵盖了当前的评分思想,并且用一些新的指标来衡量查询结果与查询关键字之间的相关性,从而更贴切和准确地衡量查询结果与查询关键字间的相关度。基于新的评分函数,主要提出四种Top-k搜索算法。分别为基本算法、EBA(Early-stopping Block Algorithm)算法、AEBA (Advanced Early-stopping Block Algorithm)算法、GAEBA算法(Global Advanced Early-stopping Block Algorithm)。后三种算法以数据块为处理单位,避免频繁访问数据库,因而提高搜索效率。AEBA算法在EBA算法基础上运用多表连接优化策略,避免了EBA算法存在的重复连接问题,从而进一步提高效率。EBA算法和AEBA算法主要针对单个连接查询计划,‘而GAEBA算法利用一种优先调度机制,有效处理多个连接查询计划。另外,本文对当前的存在的稀疏算法进行了改进,使之能适应本文提出的评分函数。实验和分析证明,本文提出的评分函数的合理性以及EBA算法、AEBA算法、GAEBA算法的高效性。
其他文献
网络设备配置复杂命令多样,由配置引起的网络错误很难被网络管理员发现。目前国内外尚没有专门用于配置文本管理的智能系统,网络配置故障主要靠网管员的经验实行手工排除,效
随着网络技术的发展,外卖网购等业务在人们日常生活中扮演着越来越重要角色,大量的商品交易对如今微型打印系统的可靠性、灵活性、自适应性等方面提出了更高的要求。但由于生
事件自动摘要的研究是事件信息抽取技术与自动摘要技术结合的产物,其任务是从事件新闻中抽取一些与事件相关的重要信息,采用不同的技术组织这些信息,最终生成易于人们理解的
在信息化时代,数字化的信息数据正在以前所未有的速度增长着,信息检索工具已经成为人们日常生活中不可缺少的工具。目前,互联网上已经出现了众多的搜索引擎,为广大的用户提供了方
阴影是非常重要的视觉特征。阴影给出了场景中有关光源位置的信息,突出了物体之间的空间关系。因此阴影渲染在计算机图形图像、数字多媒体等领域具有广泛的应用前景。理想点
计算机视觉是指利用计算机来模拟人类视觉系统机制的特性,使其能够像人类一样自动地对自然场景进行理解和分析。图像显著性的检测作为计算机视觉领域的一个热点研究方向,逐渐
考试作为教学过程中一个非常重要的环节,已经经历了一个很长的发展过程。但是在计算机和网络技术出现之前,其形式的变化都较小。随着计算机技术的飞速发展和Internet的日益普
Web应用的发展趋势已从紧密耦合的单一系统转移到了松散的、基于组件的动态绑定的组合系统,并出现了基于面向服务模式构建软件应用的新模式。服务(应用)集成必将成为下一代电
当今,计算机网络和电子技术得到了飞速发展,同时网络带宽和计算机的计算能力呈指数方式提升,这就出现了一种全新的分布式计算模式——对等计算。对等网络的优点包括:分散式控
随着现代化建设和信息化建设的不断向前推进,大量非线性电力电子设备运行在电力线上,使得电网的谐波含量大大增加,谐波污染越来越严重,对电力系统的安全运行造成极大的影响。谐波