基于PIR/SIR模型的数据库关键词查询结果评价方法

来源 :中国人民大学 | 被引量 : 0次 | 上传用户:glamour269
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年来,数据库上的关键词检索技术迅速流行起来,并成为计算机研究领域中的一个热点,这也是有其应用背景和驱动的,当数据库作为一种资源向远程用户提供相应的查询服务、数据共享服务等,用户与数据库服务之间往往通过广域网相连。而由于商业政策的限制,以及RDBMS语法、访问机制各方面的多元化,导致不容易获取数据库模式信息;即使知道数据库的模式,非专业用户也很难使用标准SQL查询进行数据库查询。  在大部分用户熟悉的互联网上,搜索信息只要输入一些关键词,搜索引擎就能返回结果列表;如果在关系数据库上也能这样,显然是受欢迎的,因为通过关键词来查询数据库,用户既不需要学习像SQL这样复杂的查询语言,也不需要事先了解数据库的模式,而只需关心如何用关键词来表达自己的信息需要。于是,一些数据库上的关键词检索系统应运而生,主流的系统包括DISCOVER,BANKS和ObjectRank等。  随着原型系统建模方法和查询算法的成熟,如何对查询结果进行评价,如何有效地向用户提供最可能相关的查询结果,是数据库上关键词检索领域中迫需解决的问题。另一方面,文档集上信息检索的查询结果评价方法已趋于成熟。如何既汲以往信息检索打分机制的可取之处,又针对关系数据库关键词检索系统中查询语言和查询对象的特征,提出一系列行之有效的查询结果评价方法,就显得十分重要。  本文旨在为DETECTOR设计合理的打分机制,提高查询效果。一方面,针对结果太多的情况,提出基于PIR模型的评价方法,从而避免更好的结果没有出现在top-k中;另一方面,针对结果太少或为空的情况,提出基于SIR模型的评价方法,在词性相似之外,寻求语义上相似的结果。本文有以下创新点:  (1)、设计并实现了DETECTOR上基于PIR模型的查询结果评价方法。该方法将传统信息检索领域的PIR模型灵活运用到关系数据库上的关键词检索中,并且做了可适性说明和适当的调整。在查询结果很多而top-k结果的分值又几乎无差别时,就要发掘这些结果在其他方面的区别。本文在以往打分方法的基础上,不仅评价查询属性包含关键词的情况,也评价其在数据库中的重要程度,不仅评价结果元组中的查询属性,也评价非查询属性在数据库/历史查询中的频度;并针对结构化数据中固有的依赖关系,考虑了非查询属性和查询属性之间的关联。并且,可以根据具体应用,调整数据库中某属性列上distinct值频度的重要程度,为以后的具体应用提供了用户多接口定义。  (2)、提出了一种基于Workload的查询结果评价方法。在DETECTOR中,增加了采集用户反馈信息的功能,即用户在点击结点浏览元组详细信息时,系统将此动作记下,存储用户偏好的元组信息以及点击次数。将这些历史结果作为Workload存储下来,为评估某元组信息在历史查询中的的重要程度打下基础。  (3)、提出了一种基于语义信息检索的向量空间模型。鉴于权威网站ACMCCS提供了计算机文献库的概念层次列表及文章的分类信息,我们设计了衍生的向量空间模型,用来评价概念层次图中概念结点间的相似度,为数据库关键词检索系统在语义检索方面的查询和评价迈开了第一步。并以ACMCCS提供的查询结果为参照,对我新的模型进行了有效的评估。  (4)、创建了一个适合语义信息检索的数据库。并不是所有数据库上都可以进行语义检索的,它的前提是要有一个描述该领域的本体知识库。本文并没有把研究内容扩展到本体论(ontology)的范畴,而是用领域中的概念层次关系作为对该领域元素的描述。ACMCCS提供了部分计算机文献库的概念层次列表,以及所有概念结点下的文章。以此为基础,设计合理的模式图,装载生成适合语义信息检索的数据库ACMCCS。此项工作为关系数据库上的语义信息检索提供了很好的数据集,并为研究计算机领域的本体知识积累了资源。
其他文献
随着软件开发技术的提高,软件工程的推广深入,软件测试日益得到重视和专业化。测试的改进会对整个软件开发工作的质量、成本和周期带来非常显著的效果。   为了少投入多产出
学位
随着视频信号处理器的发展,音视频处理技术得到了长足的进步。社会对音视频通信的需求不断提升,人们对可视通信的需求及视频会议等专有领域的应用给可视通信带来了很好的发展
宽带无线接入技术和移动终端技术的飞速发展使世界进入移动互联网时代,Android、IOS、WindowPhone三大操作系统应运而生。其中,安卓(Android)系统平台以其开源性占据主导地位
无线通讯和定位技术的飞速发展,使得移动数据管理方面的应用越来越广泛。在本文中,关注真实生活中那些运动在受限网络环境下移动对象,比如交通网络下的车辆,提出了一种称为ANR-tr
Athena方法是安全协议分析领域中的一种新的形式化分析方法。本文首先对其进行了深入分析,然后针对安全协议形式化分析领域中的两个重要问题——类型缺陷攻击问题、组合协议
本文从本体开发和本体应用两个方面对本体研究进行了分析和综述.本体开发研究主要包括本体方法论、本体开发工具、本体描述语言、本体映射、本体合并、本体进化、本体学习等;
灌浆监测系统对于灌浆施工的质量保证具有重要意义,而传统监测系统的实现方式一般只是对单孔进行监测,不利于大规模的灌浆施工,而且不利于对灌浆现场的监理。同时由于信息形
从曲面的三维采样点集恢复出曲面的几何模型称之为曲面重建。曲面重建是许多研究领域如逆向工程,医学图像可视化中的重要问题,因此,曲面重建问题被广泛地研究,产生了许多曲面
子查询及分组和聚集操作是SQL语言中的重要特性,有着非常广泛的应用。随着决策支持系统、数据仓库、OLAP系统越来越普及,这两种操作的应用也变得越来越广泛。因此,如何高效的处
低压开关设备的安全可靠性直接影响着整个供电系统的正常运行,为了避免计划维修导致的“过剩维修”和“不足维修”,本文采取模糊理论的方法对低压开关电器的工作状态进行预测,并根据器件的健康状态来制定检修计划,实施设备检修,然后应用智能故障诊断模型—改进的RBF神经网络对器件的故障进行诊断。这样不仅可以节约维修费用,而且可以减少故障排查时间。首先,对低压电气控制柜的整体结构进行了分析,由于故障最终发生在组成