论文部分内容阅读
从20世纪90年代开始,上下文检索逐渐引起了信息检索研究者的关注,有较多的学者从不同的角度对上下文检索的概念、模型、实现方法等关键问题进行了较为深入的探讨。以文档为中心的上下文检索研究是该研究方向的一个重要分支,它侧重于从文档中发现、提取上下文信息并将其应用于信息检索的各个环节,在上下文检索研究中占有一定的比重。针对该项研究存在的问题,本论文对以文档为中心的上下文检索相关理论进行了探讨,对其若干关键技术提出了改进思路。
本文的研究工作主要包括以下四个方面:
(1)对以文档为中心的上下文检索相关问题进行了探讨。主要包括四个部分:第一,文档上下文的概念、类型和析取方法。第二,文档表示及其改善方法。用三种方式来表示文档,即词上下文向量、文档上下文向量和倒排文档,以便用更多的文档上下文来描述文档。第三,基于文档表示的上下文检索方法。在检索的过程中充分利用文档表示结果来提高检索性能,即利用词上下文向量来进行查询扩展、利用倒排文档来进行查询过程中的动态词语加权、利用文档上下文向量以及动态词语加权的结果来进行查询和文档之间的相似度计算。第四,以文档为中心的上下文检索关键技术,主要包括词上下文向量生成技术、文档上下文向量生成技术和基于文档上下文的词语加权技术等。
(2)提出了一种基于句法分组的词上下文向量生成算法。词上下文向量的生成是以文档为中心的上下文检索的关键技术之一,句法分组是自然语言处理领域中的一项技术。该算法将句法分组技术引入到词上下文向量的生成过程中,通过设计合理的共现规则和加权规则,使生成的词上下文向量能更好地表达目标词语在指定文档集中的语义。
(3)提出了一种基于语义过滤的文档上下文向量生成算法。文档上下文向量的生成是以文档为中心的上下文检索的另一项关键技术。该算法用目标文档中所有关键词的词上下文向量的加权和作为目标文档的文档上下文向量,在加权求和之前,对词上下文向量中的每个特征词都进行语义过滤,只保留与目标文档相关的特征词,以提高文档上下文向量的精度。
(4)提出了一种基于平均上下文距离的动态词语加权算法。基于上下文的动态词语加权是以文档为中心的上下文检索的又一项关键技术。该算法首先计算所有查询词的词上下文向量的交集,从中挑选权值大于给定阈值的特征词作为扩展词;然后以一个查询词为目标,从倒排文档中提取所有查询词在文档中的位置信息,计算目标查询词与其它每一个查询词在当前文档中的共现次数和上下文距离,在此基础上计算目标查询词与其它每一个查询词之间的平均上下文距离,并根据相关的公式和平均上下文距离计算目标查询词的动态权值。