论文部分内容阅读
关键词查询的理论和技术在信息检索和Web搜索引擎中得到了广泛深入的研究和应用。传统数据库管理系统仅支持模式匹配,不支持自由形态的关键词查询。鉴于此,近年来关系数据库上的关键词查询处理的研究成为备受关注的前沿课题之一。传统关系数据库系统运用结构化查询语言(SQL)对数据库进行操作,需要用户掌握SQL和数据库模式,这对于普通用户是困难的。此外,对返回的查询结果,传统数据库系统只能进行简单排序,用户要想从中获取最感兴趣的信息是很困难的。目前,关键词查询的研究主要针对英文关键词,因此针对具有多表的数据库,本文给出一种中文关键词top-N查询处理方法。此方法创建索引表存储从数据库中析出的中文元组字及其相关信息,进而构造索引用以快速匹配查询关键字,借鉴IR的相似度公式构造适合中文关键词查询的排序策略。对于一个中文关键词查询,利用索引快速匹配查询字和元组字得到相应信息,并根据这些信息创建候选元组生成链表和SQL查询语句,进而得到候选元组及其与查询之间的相似度,最终按相似度返回Top-N结果。此方法实现了按字搜索及中文的缩略词的查询处理。最后利用真实数据集进行实验,实验内容包括对查询相应时间和准确性的验证,实验数据显示本文方法是有效的。