论文部分内容阅读
随着社会信息化进程的不断发展,人类对信息的需求和依赖程度越来越高,如何从海量信息资源中快速有效的获取有用信息,已经成为人们研究的焦点。早期信息检索的对象多为文本数值信息,现在图形、图像、音频、视频等新型媒体信息急剧增加,并逐渐纳入到信息检索的研究领域。在信息检索中,对文档的自动处理包括对文档的检索、自动分类聚类以及问题-解答系统中的文档检索引擎设计等,其核心问题是文档的相似度计算和相关度计算。由于缺少好的计算模型和算法,大多数情况下,相关度难以量化。再加上相似度高的文档对应的相关度也大,因此,相关度一般被相似度代替,很多文献也没有刻意把二者加以区分。但是,在信息检索和分类聚类中,真正需要的是相关度,单纯利用相似度的效果并不好。所以,本文我们给出一种计算结构化文档相关度的方法。本文主要讨论了如何精确计算结构化文档相关度的理论模型和方法。首先,分析了基于语义内容的文档相关度和基于文档特征的文档相似度之间的区别,提出利用树同构思想测量文档语义相关性。其次,为了更精确地计算文档之间的相关度,在计算过程中还考意了同一棵有序标记树中具有相同标记的结点数多于两个时的“多对一”匹配。第三,基于树编辑距离的基本思想是计算利用编辑操作将一棵树转化为另一棵树所需要的代价。在计算过程中,编辑操作的代价是考虑的中心,树中各结点的权重问题则很少涉及。然而,位于不同层的结点其权重是不同的,所以,本文在计算文档相似度时,加入了结点权重作为一个必不可少的条件,通过为结点赋予不同权重反映匹配结点的位置重要性,对于未匹配结点则首次提出利用影响因子针对不同情况作适当区分。最后,本文给出计算文档相关度的公式,并用实验证明此模型和方法的有效性。