论文部分内容阅读
近几年来,数据库上的关键词检索技术迅速流行起来,并成为计算机研究领域中的一个热点,这也是有其应用背景和驱动的,当数据库作为一种资源向远程用户提供相应的查询服务、数据共享服务等,用户与数据库服务之间往往通过广域网相连。而由于商业政策的限制,以及RDBMS语法、访问机制各方面的多元化,导致不容易获取数据库模式信息;即使知道数据库的模式,非专业用户也很难使用标准SQL查询进行数据库查询。 在大部分用户熟悉的互联网上,搜索信息只要输入一些关键词,搜索引擎就能返回结果列表;如果在关系数据库上也能这样,显然是受欢迎的,因为通过关键词来查询数据库,用户既不需要学习像SQL这样复杂的查询语言,也不需要事先了解数据库的模式,而只需关心如何用关键词来表达自己的信息需要。于是,一些数据库上的关键词检索系统应运而生,主流的系统包括DISCOVER,BANKS和ObjectRank等。 随着原型系统建模方法和查询算法的成熟,如何对查询结果进行评价,如何有效地向用户提供最可能相关的查询结果,是数据库上关键词检索领域中迫需解决的问题。另一方面,文档集上信息检索的查询结果评价方法已趋于成熟。如何既汲以往信息检索打分机制的可取之处,又针对关系数据库关键词检索系统中查询语言和查询对象的特征,提出一系列行之有效的查询结果评价方法,就显得十分重要。 本文旨在为DETECTOR设计合理的打分机制,提高查询效果。一方面,针对结果太多的情况,提出基于PIR模型的评价方法,从而避免更好的结果没有出现在top-k中;另一方面,针对结果太少或为空的情况,提出基于SIR模型的评价方法,在词性相似之外,寻求语义上相似的结果。本文有以下创新点: (1)、设计并实现了DETECTOR上基于PIR模型的查询结果评价方法。该方法将传统信息检索领域的PIR模型灵活运用到关系数据库上的关键词检索中,并且做了可适性说明和适当的调整。在查询结果很多而top-k结果的分值又几乎无差别时,就要发掘这些结果在其他方面的区别。本文在以往打分方法的基础上,不仅评价查询属性包含关键词的情况,也评价其在数据库中的重要程度,不仅评价结果元组中的查询属性,也评价非查询属性在数据库/历史查询中的频度;并针对结构化数据中固有的依赖关系,考虑了非查询属性和查询属性之间的关联。并且,可以根据具体应用,调整数据库中某属性列上distinct值频度的重要程度,为以后的具体应用提供了用户多接口定义。 (2)、提出了一种基于Workload的查询结果评价方法。在DETECTOR中,增加了采集用户反馈信息的功能,即用户在点击结点浏览元组详细信息时,系统将此动作记下,存储用户偏好的元组信息以及点击次数。将这些历史结果作为Workload存储下来,为评估某元组信息在历史查询中的的重要程度打下基础。 (3)、提出了一种基于语义信息检索的向量空间模型。鉴于权威网站ACMCCS提供了计算机文献库的概念层次列表及文章的分类信息,我们设计了衍生的向量空间模型,用来评价概念层次图中概念结点间的相似度,为数据库关键词检索系统在语义检索方面的查询和评价迈开了第一步。并以ACMCCS提供的查询结果为参照,对我新的模型进行了有效的评估。 (4)、创建了一个适合语义信息检索的数据库。并不是所有数据库上都可以进行语义检索的,它的前提是要有一个描述该领域的本体知识库。本文并没有把研究内容扩展到本体论(ontology)的范畴,而是用领域中的概念层次关系作为对该领域元素的描述。ACMCCS提供了部分计算机文献库的概念层次列表,以及所有概念结点下的文章。以此为基础,设计合理的模式图,装载生成适合语义信息检索的数据库ACMCCS。此项工作为关系数据库上的语义信息检索提供了很好的数据集,并为研究计算机领域的本体知识积累了资源。