论文部分内容阅读
伴随着全球信息化进程的迅猛发展,网络上的中文信息资源变得越来越丰富,如何从这些海量数据中挖掘出有价值的中文信息,已逐渐成为信息检索领域的研究热点,信息检索技术的提高也随之变得重要起来。在现有的检索模型中,文档的得分主要都是基于词项在文档内的频率,逆文档频率以及文档长度而得到的,并没有充分考虑匹配到的查询词项在文档中所处位置的近邻性信息。虽然这些检索模型也有被应用到中文信息检索中并取得了不错的成绩,但其检索效果仍有提升的空间。因此,本文就基于位置语言模型的中文信息检索方法进行了研究。主要工作包括以下两个方面:第一,将位置语言模型引入到中文信息检索中进行建模,利用文档中词与词之间出现位置的近邻性关系,将查询词项在文档中出现的位置信息聚集在一起,以便获得与查询主题更为相关的检索文档。我们将中文文本信息采用基于词表和基于二元两种分词方法进行切分,切分后的文档词与词之间用空格区分,在建模时文档中的位置信息以词为单位进行标识,这样不仅考虑了词与词之间的位置近邻性,而且在一定程度上考虑了词间的复合关系,有助于提高检索的准确率。我们在NTCIR-5和NTCIR-6中文文档测试集上均进行了实验,实验结果表明,基于位置语言模型的中文信息检索建模方法相对于传统的检索方法来说拥有更好的检索性能。第二,在伪相关反馈方法中加入文档的位置特征,帮助原始查询获取更合适的扩展词项。该方法将反馈文档中的词项位置信息添加到相关性模型中,充分考虑了查询词项在反馈文档中出现的位置,利用位置语言模型将反馈文档中的词项与查询词项间的位置关系聚集起来,给那些靠近查询词项出现的词分配更高的权重,进而获取与查询主题更为相关的词来作为扩展词项。文中考虑了两种估计伪相关反馈的方法,独立同分布抽样方法和条件抽样方法。在文档集NTCIR5下我们基于词表索引分别验证了两种反馈方法的检索效果,实验结果表明,基于位置语言模型的中文伪相关反馈方法的检索性能要优于传统的反馈方法。