论文部分内容阅读
近年来,XML的广泛运用使其迅速成为互联网上数据表达和交换的标准,网络中XML文档的数目以指数级形式不断增加。而关键字检索作为一种高效的信息检索模式,目前已经广泛应用到XML文档检索领域中。最近的研究大多围绕“近似关键字查询”主题展开了研究,但是由于关键字本质上具有一定的模糊性和不精确性,因而不能准确地描述用户真实的查询意图,检索结果也不尽如人意。一方面,执行关键字检索时可能返回大量的检索结果,因而检索结果聚类是返回高质量检索结果的重要手段;另一方面,同一个聚集中必然存在多个候选结果能够匹配关键字查询,基于聚类内部的排序机制也是实现高效查询的重要途径。本文围绕解决“返回有意义的XML聚类结果”现象展开了研究,针对XML检索结果聚类和聚类内部检索结果排序这两个方面进行了数学建模和算法分析。因此,提出了基于多粒度特征的XML关键字检索方法。在该方法中,提出了聚类紧密度(Cluster Compactness Granularity, CCG)的聚类相似性度量方法,从而将相似的检索结果聚簇在一起,形成了若干与查询意图相关的聚集。此外,提出了子树紧密度(Subtree Compactness Granularity, SCG)的查询相关性度量方法,区别于传统的信息检索排序机制,该粒度实现了基于聚类内部的候选匹配子树的排序。其次,本文定义了紧密LCA (Compact LCA, CLCA)语义,通过消除冗余的LCA节点从而解决了识别相关匹配的问题,其次识别出错误过滤掉的LCA节点进而解决识别相关不匹配的问题,并且从本质上避免了基于SLCA方法的屏蔽效应以及隔离性的问题。本文设计实现了基于图的算法XEdge,将CLCA语义、CCG以及SCG粒度三个特征有机地融合在一起,并且将其与算法XSeek与XKLUSTER在聚类数量、查准率和查全率三个方面进行了对比和分析。实验结果表明XEdge能产生高质量的XML聚类结果,同时具有更好的检索性能。