论文部分内容阅读
本文主要研究SLM-based检索模型与传统检索模型的对比,以及SLM-based检索模型中的数据平滑技术,包括参数平滑和语义平滑。首先本文介绍了两种SLM-based检索模型,并在2003年863信息检索评测的数据集上对它们和传统的向量空间模型进行了大量的对比实验,在此基础上分析了三种模型的性能对比。然后本文从两个不同的思路研究了平滑技术,一是参数平滑;二是语义平滑。参数平滑研究中本文利用了统计语言模型的研究中提出的四种平滑方法来融合文档语言模型和文档集合语言模型,并进行了大量的对比实验。更进一步地从理论上分析了平滑技术对于SLM-based检索模型的意义。本文从两个方面研究了语义平滑。第一,提出了一种基于语言特征的索引式聚类技术。第二,改进了基于统计翻译思想的SLM-based检索模型中的语义平滑方法,利用哈尔滨工业大学信息检索实验室的《同义词词林(扩展版)》来进行语义平滑,而不是通过统计的方法。