论文部分内容阅读
随着各种文本信息资源的迅猛发展,文本信息检索系统已经成为人们获取有用信息不可缺少的工具,而文本信息检索模型作为文本信息检索技术的数学基础,是主要的研究方向之一,具有重要的意义。统计语言模型作为一种自然语言处理的工具,已经被证明有能力处理大规模真实文本。而统计语言模型和IR相结合后所形成的IR模型的提出,是信息检索模型研究上的重大进展。本文从文本检索模型的基本原理入手,分析了几种传统IR模型的优缺点,给出基于统计语言模型的IR模型的基本原理、关键技术以及它的优势所在。并在标准的TREC中文实验数据集上,回答了下面两个问题:(1)中文统计语言模型-IR模型的性能如何?也就是说,中文统计语言模型和IR相结合有没有前途?(2)特征选择对中文统计语言模型-IR模型的影响如何?哪种特征选择方法好?对于问题(1),我们用SLM-IR模型和两种传统的IR模型:向量空间模型和概率模型进行比较,以标准的TREC评价手段,给出上述3种模型的性能。实验结果表明:简单的SLM-CIR模型的性能要优于简单的向量空间模型和概率模型。对于问题(2),我们选择了几种典型的特征选择方法,即单汉字、分词、bigram,比较它们的性能。同时,考虑到分词的特殊性,我们又选择了几种不同的分词方法,给出了基于不同分词方法的分词切分SLM-IR模型的性能。实验结果表明:①对于单汉字切分,简单的SLM-CIR模型的性能要优于简单的向量空间模型和概率模型;对于分词切分和Bigram切分,简单的SLM-CIR模型的性能要优于向量空间模型,虽然略低于OKAPI概率模型,但是反馈后的SLM-CIR模型的性能要明显优于反馈前和反馈后的OKAPI概率模型。②对于简单的SLM-CIR模型,分词切分的性能不如Bigram切分和单汉字切分,而且不同的分词方法对检索性能的影响不明显。这就说明了在SLM-CIR模型中,分词技术不是影响模型性能的关键因素。③验证了英文数据集上的实验结论,即无论采用哪一种切分方法,使用狄利克雷先验值的贝叶斯平滑方法仍比其他两种平滑方法好。 <WP=5>今后,可以在语义平滑技术等方面进行深入研究,并且把统计语言模型作为构建更复杂的IR模型的一个强有力的工具。