基于Lucene的关系数据库关键字检索技术研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:chensiren
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着关系数据库技术的不断发展,越来越多不同领域的信息以结构化数据形式存储在关系数据库中,关系数据库已成为当今数据库的主流形式。然而,随着关系数据库的不断普及,其查询方式的局限性显得日益突出。关系数据库采用结构化查询语言(SQL)进行信息查询,要求用户掌握一定的SQL语法知识和数据库模式信息。另一方面,传统的搜索引擎技术以关键字作为查询提交形式,为用户提供了针对非结构化数据的信息检索手段,然而搜索引擎技术不适用于结构化数据的关键字检索。因而,将数据库与信息检索相结合,实现关系数据库关键字检索,已成为数据库和信息检索两个领域的研究热点。关系数据库关键字检索技术借鉴搜索引擎的查询模式,以关键字方式实现关系数据库检索,使用户在无需掌握SQL语言和数据库模式信息的情况下,仍然能够方便、快捷地从关系数据库获取预期结果。   本文在总结和分析现有关系数据库关键字检索技术研究成果的基础上,充分利用Lucene全文检索工具包的优越特性,提出一种基于候选文档的关系数据库关键字检索方案-RDBS(Relational Database Search)。RDBS首先以开源全文索引工具包Lucene为基础,对关系数据库中各关系表的元组建立元组索引,对按照数据表间参照关系生成的一系列候选文档建立关系索引。然后,在RDBS索引的基础上设计了一种基于候选文档的检索算法,该算法充分利用为RDBS建立的元组索引和关系索引,避免了在检索过程中频繁访问数据库的弊端,大大提高了检索效率。最后,结合Lucene文档评分排序模型给出了RDBS的候选文档相似度计算方案。   本文在实验过程中,采用信息检索领域的通用评价指标准确率(Precision)和召回率(Recall)对RDBS系统的检索效果进行评测;通过一系列在不同规模数据集上的实验对RDBS系统的检索效率进行评测。实验结果表明,RDBS系统的检索结果具有很高的准确性,其检索效率也比较令人满意,能够满足一般的关系数据库关键字检索的需求,具有较强的实用价值。
其他文献
随着计算机技术和互联网的迅速发展,各种信息呈爆炸式增长,人们对信息精确定位的需求促进了自然语言处理技术的研究。同时,随着人们对跨文本信息融合的分析,多文档自动文摘成
当今世界,科学技术突飞猛进的发展,而以高科技为基础的武器研发技术更是日新月异,现代战争可以说是新技术的“展览馆”,应用高科技的新式武器无论是破坏力还是杀伤力都达到了前所
未知环境下移动机器人的同时定位与建图(Simultaneous Localization and Mapping-SLAM)是自主探索领域的核心问题,现已受到了广泛关注,并涌现出大量的解决方法。与单机器人SLAM
当前面向主干网的网络检测系统鲜有将僵尸网络(botnet)传播检测数据纳入,并且缺少对检测到的威胁事件作进一步分析,以致无法评估出被保护对象所受的危害程度。本文尝试以出入
迁移学习是针对跨领域学习问题提出的一类机器学习方法。迁移学习在彼此不同但又相关联的两个领域之间挖掘领域共享的潜在特征和结构,使得样本数据所包含的知识可以在领域之
动力配煤技术是一项投资少、见效快,既能节约煤炭资源,又能减轻环境污染的适合中国国情的洁净煤技术。为构建“资源节约型社会”和“环境友好型社会”,动力配煤优质化技术已
Web技术的飞速发展使得全球信息的传递和共享日益增多,如何利用信息检索技术在网络资源中高效地发现和使用有价值信息一直都是行业的焦点。随着网络和信息技术的发展,网络中的
随着计算机技术发展的日新月异使得众多研究领域都离不开计算机技术。作为近十年来新兴的、非常重要的研究热点,虚拟现实技术凭借它和众多计算机学科千丝万缕的联系,已经发展成
伴随互联网技术的快速繁荣发展,信息检索己经由纯粹的学术研究转变成大多数人信息获取的技术基础。在绝大多数的信息检索系统中,其检索出来的信息(如文档)都以排序的方式返回给用
聚类是将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。目前,文献中存在大量的聚类算法,主要分为划分聚类方法,层次聚类方法,网格聚类方法,密度聚类方法和