论文部分内容阅读
随着互联网的普遍应用和网络数据的急剧膨胀,数据库在线关键字检索方式已经成为人们网上查阅和搜索信息的主要手段。然而面临当今数据组织形式和结构的各异性,研究者已经指出了需要采取不同的数据建模形式(如关系、层次、面向对象的、网状、半结构化模型等),进而也引起了大量新颖的数据管理技术的不断发展(如对于XML数据、数据流的处理、网络数据的集成、数据分析及挖掘等)。关系型数据库因其数据结构简单、清晰,且具有较高的独立性和安全保密性,已成为应用最广泛的通用型数据库,且作为Deep Web的重要组成部分,因此关系数据库检索技术应具有更高的用户友好性和通用性。数据库管理系统提供复杂的工具,可使专业用户使用SQL语言进行结构化查询,但对于大多数普通用户来讲,像谷歌、雅虎等搜索引擎那样通过提交几个关键字就能检索到相关信息的关键字查询方式,更容易被其接受和使用。然而由于非专业用户的表达查询意图的方式和检索时所关注的差异、以及对相关数据库存储内容了解的有限,导致许多数据库信息无法被获取,用户的满意程度下降,且进行试探性检索的次数会随之增加。因此针对检索的方式、手段和技术需要不断完善,使其能够对与查询关键字语义相关(但不是明确给出的关键字)的内容给出查询结果,提高查询的准确性,以便更好地向人们提供简单、可依赖的信息获取服务。本文首先提出一种评估数据库中所有存储的数据与用户给定查询条件的关键字之间的语义相关性,即分析词条之间耦合关系的方法TCR(Term Coupling Relationships)。根据TCR评估用户初始条件中的关键字与数据库中全部数据的耦合关系(包括内耦合与外耦合两部分),并生成相关性大小的顺序列。然后利用排名机制将数据库中Top-k排名结果作为候选关键字推荐给用户,最后通过用户重构最贴近自己意图的条件提供给检索系统进行再查询。其中查询重构系统选取基于候选网的DISCOVER系统进行再查询处理,即将TCR方法集成到传统的精确查询系统中。嵌入TCR方法的检索系统,能够使缺乏相关经验的用户根据系统分析初始条件并推荐出相关性高的关键字,使用户能够重构符合自己需求的查询条件,在某种意义上实现了对初始目的的近似查询。并且让用户自己主观的重新构建和选择关键字,使检索更加人性化,更能满足用户的真实想法。同时结合了精确匹配的优势,使检索效率及用户满意程度达到较高的要求。实验采用DBLP、Movie Lens和IMDB数据集,应用TCR算法在关键字与数据库中的信息进行耦合关系分析,证明了参数α对不同数据库的不同影响。并用Top-k推荐算法返回推荐关键字。近而在DISCOVER系统上实现关键字的最终查询。