论文部分内容阅读
随着关系数据库技术的不断发展,越来越多不同领域的信息以结构化数据形式存储在关系数据库中,关系数据库已成为当今数据库的主流形式。然而,随着关系数据库的不断普及,其查询方式的局限性显得日益突出。关系数据库采用结构化查询语言(SQL)进行信息查询,要求用户掌握一定的SQL语法知识和数据库模式信息。另一方面,传统的搜索引擎技术以关键字作为查询提交形式,为用户提供了针对非结构化数据的信息检索手段,然而搜索引擎技术不适用于结构化数据的关键字检索。因而,将数据库与信息检索相结合,实现关系数据库关键字检索,已成为数据库和信息检索两个领域的研究热点。关系数据库关键字检索技术借鉴搜索引擎的查询模式,以关键字方式实现关系数据库检索,使用户在无需掌握SQL语言和数据库模式信息的情况下,仍然能够方便、快捷地从关系数据库获取预期结果。
本文在总结和分析现有关系数据库关键字检索技术研究成果的基础上,充分利用Lucene全文检索工具包的优越特性,提出一种基于候选文档的关系数据库关键字检索方案-RDBS(Relational Database Search)。RDBS首先以开源全文索引工具包Lucene为基础,对关系数据库中各关系表的元组建立元组索引,对按照数据表间参照关系生成的一系列候选文档建立关系索引。然后,在RDBS索引的基础上设计了一种基于候选文档的检索算法,该算法充分利用为RDBS建立的元组索引和关系索引,避免了在检索过程中频繁访问数据库的弊端,大大提高了检索效率。最后,结合Lucene文档评分排序模型给出了RDBS的候选文档相似度计算方案。
本文在实验过程中,采用信息检索领域的通用评价指标准确率(Precision)和召回率(Recall)对RDBS系统的检索效果进行评测;通过一系列在不同规模数据集上的实验对RDBS系统的检索效率进行评测。实验结果表明,RDBS系统的检索结果具有很高的准确性,其检索效率也比较令人满意,能够满足一般的关系数据库关键字检索的需求,具有较强的实用价值。