论文部分内容阅读
随着World Wide Web的迅速发展,半结构数据得到了广泛的关注,进而XML成为Web上交换信息和整合数据资源的事实上的标准。XML作为一种数据格式与其他文档格式的区别在于除了有内容信息之外,XML还有结构信息。当检索XML文档的时候,由于大多数普通用户对XML文档的结构和内容信息不够了解,从而频繁地获得空查询结果,不得不多次修改查询表达式。为了避免这种空查询结果问题,提出了查询松弛方法。查询松弛的基本思想是减少原始查询的约束进而扩大查询的范围,为用户返回更多相关的查询结果。在松弛原始查询之后,用户将面对的另一个问题是系统通常为用户返回很多的查询结果。为了处理多查询结果问题,本文使用有效的排序方法对查询结果进行排序。此外,在查询XML文档的时候用户经常有模糊的或者不精确的查询要求。用户更加喜欢使用模糊词或者模糊关系表达其模糊查询意图,此时如何扩展查询系统并让查询系统能够满足用户的模糊查询要求是一个重要的问题。因此,对XML的查询语言进行柔性扩展,并给系统提供柔性查询能力,能够提高用户与系统之间的交互性。近年来,大量的研究工作致力于XML数据库柔性查询技术的研究,研究的重点主要包括XML查询松弛、查询结果排序和模糊查询等研究领域。然而,在大多数查询松弛的研究工作中没有考虑用户偏好的作用,而在实际应用中查询松弛的效果能够极大地受到用户偏好的影响。为此,为了处理在查询XML数据库过程中出现的个性化查询和模糊查询问题,本文提出了有效的柔性查询技术满足用户的查询需求和偏好。主要的研究内容包括以下几个方面:(1)针对用户的个性化查询问题,提出了一种松弛上下文偏好的方法,即偏好查询的结果依赖于查询提交时的上下文条件。上下文可以表示成多维属性的集合形式。首先,提出了一种XML上下文偏好模型;然后,讨论了松弛上下文操作的方法,它可以松弛一个或者多个上下文属性而产生更多的上下文状态;进一步地,上下文偏好存储在一种特定的数据结构——兴趣树中;最后,通过在兴趣树中使用关联规则挖掘方法自动地获取上下文偏好的偏好程度。(2)为了解决在查询XML数据库过程中出现的空查询结果问题和多查询结果问题,提出了一种基于XML结构偏好松弛和内容偏好打分的查询结果排序方法。首先,提出了结构偏好的定义,由结构偏好生成所有可能的松弛查询;然后,用户可以在XML的属性节点上表达他们的兴趣,进而用户给他们感兴趣的属性节点分配兴趣度得分,并快速计算偏好得分;在此基础上,提出了一种偏好查询的结果排序方法,主要包括基于上下文状态的相似性合并聚类的聚类融合算法、找到有代表性聚类排列的算法和Top-k排序算法来处理多查询结果问题。(3)用户在查询XML文档的时候经常有模糊的或者不精确的查询要求。为了解决用户的模糊查询问题,提出了一种基于XML结构和内容的模糊查询扩展方法。首先,以模糊集理论为基础,提出了利用模糊谓词实现XPath查询表达式的模糊扩展方法;然后,基于代数操作,提出了一种新颖的模糊代数查询方法表达用户的模糊查询意图。该方法的目的是定义一个模糊代数操作的集合,能够支持XML模糊查询,模糊查询的结果能够满足用户提出的模糊查询条件;进一步地,提出了一种排序方法考虑隶属度和用户自定义查询权重之间的相关性;最后,提出了一种有效地计算模糊查询结果的Top-k答案的方法。(4)针对XML文档进行模糊查询过程中出现的空查询结果问题,提出了一种模糊查询松弛方法,该方法能够获得更多的满足用户模糊查询要求的查询结果。首先,可以将原始的模糊查询条件转换为一个精确的查询区间,该查询区间内的值都能够满足用户的模糊查询要求;然后,提出了一种基于扩展的向量空间模型,用于度量XML属性节点和模糊关系谓词之间的相关度;最后,提出了一种基于改进的PIR方法排序模糊查询结果,它考虑被模糊查询指定的属性节点和未被模糊查询指定的属性节点之间的相关性。