论文部分内容阅读
随着Internet的发展,半结构化语言XML作为一种标记语言,具有有效的表达各种信息、数据和使各种应用协同工作的能力,已经成为数据发布和数据交换的事实标准。XML文档作为一种新的数据形式,成为当前的研究热点。在XML文档的应用中,XML数据查询技术是XML技术研究的重要内容。XML文档间相似度的计算是XML文档分析、管理及搜索的基础。在XML查询技术中,对XML文档的准确匹配搜索技术已经非常成熟,已经成为人们广泛应用于文本搜索,而且已经被证明是很好的XML文档检索技术。然而,对XML文档的不准确匹配搜索还处于初级阶段,还有存在许多问题,比如对XML的搜索效率、检索的准确度以及检索的查全率。大量研究已经证明对XML文档的不准确匹配搜索技术之一相关关键字搜索很适合于标记树结构的XML文件。本文即是利用相关关键字搜索技术的思想提出了一种新的基于向量空间的XML文档相似性度量方法,并且基于这种XML文档相似性度量方法的基础上设计出了XML文档搜索算法。同传统的XML文档的搜索算法一样,我们首先把XML文档以XML文档树的形式表示。我们对XML路径的层次关系赋予权值并映射为向量,并对把XML文档集映射为XML矩阵空间。这样可以简化XML文档相似性计算量以提高算法的效率。然后,通过矩阵变换来缩小矩阵空间来缩小相应的搜索空间,以提高XML相关关键字搜索的效率。最后本文对这一搜索技术进行了测试,并得出了总结了测试结果。