论文部分内容阅读
XML具有自描述性和可扩展性等特性,目前它已经成为信息表达和数据交换的格式和标准,被广泛应用到各个领域。因此,对XML文档进行准确的检索具有很大的研究前景。XML文档检索与传统的纯文本检索最大的区别在于检索结果粒度的不同。在纯文本检索中,检索结果的粒度是整篇文档。用户需要在返回的整篇文档中进行再次查找,才能得到自己需要的信息,这样降低检索的准确率。而XML文档检索是以XML文档片段作为返回结果的单位,并非是整篇文档。返回结果的粒度由整篇文档精细为XML文档片断可以提高XML文档检索准确率。XML文档查询的返回结果通常是一组包含关键词的XML文档子树,而结果子树的根节点也就是答案节点的选取是关键。由于XML文档中存在多种粒度的元素,因此需要考虑以什么粒度的元素节点作为答案节点。如何合理地选择答案节点已成了XML文档检索中关键问题之一。XML文档是包含内容和结构的半结构化数据,既可以进行关键词查询,也可以进行内容与结构查询。在关键词查询中,用户只是简单给出若干个查询关键词,没有明确指出返回什么元素;在内容与结构查询中,用户可能不指定答案节点,或者即使指定了答案节点,但是往往是模糊的、不准确的。因此,无论是关键词查询还是内容与结构查询,都需要研究如何根据用户给定的查询表达式推导出答案节点。XML文档中的元素节点可以分实体节点、连接节点、叶子节点和值节点。考虑到答案节点的语义完整性,我们只把实体节点和连接节点作为候选答案节点。关键词查询中,在节点分类的前提下,计算候选答案节点成为答案节点的置信度,选取置信度计分排序在前n、并把存在祖先/后裔关系的祖先节点排除后的候选答案节点作为答案节点。在计算置信度时需要考虑的因素有节点的深度和关键词匹配度。候选答案节点把节点数量巨大的叶子节点和值节点排除在外,候选答案节点的数量一般不太大,因此提高了答案节点的选取效率。内容与结构查询中,如果原始返回节点属于候选答案节点,那么原始返回节点就是答案节点;如果原始返回节点属于候选答案节点,则在沿着原始返回节点的前缀路径向根节点回溯过程中,把遇到的第一个属于候选答案节点作为答案节点。最后,综合考虑关键词的词频、结果子树的大小、节点语义权重、答案节点的置信度等因素,本文提出了一个实用性较强的关键词查询的计分排序公式。在合理选取答案节点的基础上,内容与结构查询的计分公式综合考虑检索结果子树的关键词计分和结构匹配度,同时还考虑了出现在侧枝的关键词对其计分的影响。