论文部分内容阅读
传统上,SQL是存取关系数据库中数据的主要界面。但是,对于没有经验的用户来说,学习复杂的SQL语法是一件困难的事情。实现基于关键词的关系数据库信息检索,将使用户不需要任何SQL语言和底层数据库模式的知识,就像使用搜索引擎一样来获取数据库中的相关数据。关系数据库的关键词检索技术已经成为目前数据库领域中的一个研究重点。本文深入研究了关系数据库的关键词检索的检索机制和关键技术,包括检索系统框架、系统模块、数据模块、查询语言和Top-k排序及查询结果提交。通过对相关系统的检索实现策略分析,对基于关键词关系数据库查询进行形式化定义,基于给出的关键词检索的完整性约束和假设及问题模型,本文建立了关系数据库的关键词检索的数据模型和查询机制,进而建立起关键词检索的系统框架。本文通过对已有关键词检索的语法进行分析,设计了新的关键词检索语法及其识别分解算法,并给出了元数据的关键词查询方法;根据数据库关系属性的分类,分析了数字属性和文本属性的等值查询和模糊查询,给出了数字属性的等值查询的关系元组评分算法和基于隶属函数和模糊化算子的模糊查询评分实现方法,并基于简单的加权评分策略给出了数字属性的等值查询的关系元组评分算法和基于Rocchio算法的模糊查询评分实现方法。通过建立评分表和评分表图,进而相邻拓展候选元组连接树。本文通过分析已存在的排序方法及原理,提出了新的基于虚拟文档模式的最优化使用非单调函数的排序方法,并考虑其它的结果的完整性及分类因素,使用调整参数把AND和OR等关系操作符也加入到了排序模式中。把应用的IR排序方法改成把不同数据库元组结果连接起来的排序方法。排序函数的非单调性弥补了以前的方法Top-k查询处理技术不可运用于实际的不足,大大减少不必要的数据库访问,显著提高了搜索结果的查询效率。基于给出的系统检索框架,本文实现了一个关键词检索原型系统,采用多层实现关键词检索,并对文本属性和数字属性及Top-k查询的影响因素进行了实验分析,给出了这2类属性的模糊查询的主要影响因素分析。结果表明,文本属性和数字属性的相关查询方法在系统负载和效率等方面是有效的。