论文部分内容阅读
随着World Wide Web的迅速膨胀,Web中出现了越来越多只能通过基于Web表单的查询接口访问的在线数据库,这些数据库称为Web数据库。近年来,随着Internet的普遍应用和Web数据库中所蕴含信息量的快速增长,访问Web数据库已成为人们获取信息的重要手段。现有的Web数据库查询处理模式通常假定用户明确自己的查询意图并且仅支持严格查询匹配,但随着Web数据库规模和复杂性的增加,要求大量普通用户了解Web数据库的结构和内容已不现实。在这种情况下,即使用户使用明确的查询条件,Web数据库仍有可能返回过少甚至空查询结果,此时大多数(特别是需要即时满足的)普通用户希望Web数据库系统能够自动放松初始查询条件(即查询松弛)提供近似匹配的查询结果。而查询松弛后,用户又可能会面临多查询结果问题,此时用户希望Web数据库系统能够对查询结果自动进行排序或分类以避免信息过载。此外,大量普通用户对于Web数据库的查询意图通常是模糊或不精确的,所给出的查询要求可能只是其查询意图的模糊描述,此时用户希望Web数据库系统能够支持其模糊查询要求的表达,通过直接使用模糊语言查询Web数据库。不难看出,用户对解决上述问题的期望体现了对于Web数据库系统提供柔性查询服务的需求,而当前的Web数据库查询处理模式无论是在查询形式还是在查询处理方面都还难以满足这样的需求。本文针对当前Web数据库查询中亟待解决的空查询结果问题、多查询结果问题和模糊查询问题进行了研究,从满足普通用户柔性查询需求和偏好的角度入手,按照查询松弛、松弛查询下的多查询结果排序与分类和模糊查询的研究顺序,提出了一套行之有效的Web数据库柔性查询解决方案并给出了具体的实现技术。本文的创新性研究成果主要有:(1)为解决Web数据库空查询结果问题,提出了一种基于语义相似度的自适应查询松弛方法。首先,基于查询条件和数据分布推测用户对查询指定属性的重视程度,据此提出了一种属性权重评估方法;然后,通过考察属性值的特征信息,分别提出了分类型属性值之间和数值型属性值之间的语义相似度评估方法;在此基础上,根据松弛阈值、属性权重和属性值之间的语义相似度,提出了一种自适应查询松弛重写算法,并给出了一种基于元组对初始查询满足程度的查询结果排序方法。实验结果表明,提出的属性权重和属性值之间的语义相似度评估方法性能稳定、评估结果合理,提出的查询松弛方法具有较高的查全率,能够较好地满足当前用户的需求和偏好。(2)为解决由查询松弛导致的Web数据库多查询结果问题,提出了一种基于上下文偏好的多查询结果排序方法。首先,通过结合定性和定量偏好的表示方法,提出了一种带偏好程度的上下文偏好模型,该模型能够同时体现偏好关系和偏好程度;然后,给出了带偏好程度的上下文偏好的获取和处理方法,基于带偏好程度的上下文偏好,提出了松弛查询下多查询结果排序方法。实验结果表明,提出的偏好模型具有较强的偏好表达能力,排序方法具有较高的排序质量和执行效率。(3)提出了一种与查询结果排序互补的Web数据库多查询结果分类方法。首先,基于向量空间模型,提出了一种评估不同查询之间语义相似度的方法,进而分别提出了查询历史中语义相似查询的聚合方法和基于查询聚合的数据库元组聚类方法;然后,基于元组聚类和改进的C4.5决策树分类算法,提出了一种查询结果分类树构建方法。实验结果表明,不同查询之间的语义相似度评估结果是合理的,提出的分类方法具有较好的分类效果和较低的搜索代价。(4)为解决Web数据库模糊查询问题,提出了基于知识的模糊查询转换与结果排序方法。首先,基于模糊集理论,在充分考虑了用户对每个模糊基本查询条件重视程度的前提下,提出了综合使用隶属函数、领域知识、权重函数和模糊集α-截集运算实现模糊查询转换的方法;然后,根据元组对模糊查询和用户偏好的满足程度,分别给出了两种模糊查询结果排序方法。实验结果表明,提出的模糊查询方法能够同时达到较高的查全率和准确率,并且具有较高的执行效率。