论文部分内容阅读
XML技术和元数据技术作为资源对象描述与检索的基础,正在众多领域中得到广泛研究与应用,尤其基于XML的检索技术研究方兴未艾。目前虽有许多面向XML文档的检索方案被提出,但它们都不能在高效率的情况下保证资源的查全率与查准率,难以满足用户多样性的检索需求。本文围绕查全率和查准率的效率问题,引入树匹配思想,对基于XML的元数据检索进行了深入的研究。 本文首先系统地讨论了基于XML的信息检索技术的基本原理和方法,研究了XML检索技术的发展现状,对信息检索中的树匹配理论和相关问题进行了深入探讨。 为提高查全率,本文把无序标签树匹配分解为树结构匹配和标签语义匹配,采用树结构匹配和语义匹配相结合的方法,对传统树匹配算法进行了改进,提出了近似匹配的概念。针对元数据XML描述的树型结构特征,本文设计了一个由树嵌入近似匹配、树包含近似匹配、树包容近似匹配共同组成的三层近似匹配模型,此模型可根据用户的不同需求有效地调节元数据的查准率和查全率。 由于传统的无序标签树的包含问题是一个NP难问题,所以本文在近似匹配模型中根据树匹配检索的结构化特征,通过加入节点之间亲和度的限制条件,使得包含近似匹配代价的计算问题可以在多项式时间内得到解决。本文引入树编辑距离、映射代价等相关理论和动态规划的思想,详细分析了近似匹配模型的匹配代价计算问题,证明了三类近似匹配问题可在多项式时间内求解。 最后,本文利用近似匹配模型以及匹配代价计算,设计了基于XML的元数据查询系统的体系结构和检索过程,构建了元数据查询系统的原型系统,并进行了一系列实验,实验结果表明:近似匹配模型能很好地将查全率和查准率结合起来,在元数据检索的实际应用中具有可行性和有效性。