论文部分内容阅读
互联网的高速发展带来了信息的爆炸式增长。如何从缛繁杂乱的信息中筛选出所需信息,是一个迫切需要解决的问题。在现有的信息检索模型中,对文档和候选扩展词的评估主要依赖于词项在文档内的词频、逆文档频率以及文档长度等信息,却忽略了词项在文档内的位置信息对于检索性能的影响。近年来的研究表明利用词项的位置关系是提高检索性能的有效方法,虽然这些模型已取得了良好的效果,但如何捕获词项的位置信息以及对位置影响力的度量仍有提升的空间。因此,本文就基于文档内位置关系的信息检索方法进行研究,主要内容包括以下三个方面:第一,本文提出一种基于文档内位置关系的概率检索方法,BM25-LR。该研究背后的客观事实为,在大多数文章中,作者通常会在文档内的特定位置,例如文档的开头或结尾,总结观点并概括文章的中心内容,因此这些位置的词项与文档主题的相关度更高、更加重要。本文采用核函数的方法对词项在文档内的不同位置进行建模,对位于文档开头和结尾部分的词项赋予更高的位置权重。进而,将该位置特征融入到经典的BM25概率模型中,对查询词进行权重优化,帮助获取更有可能与查询相关的文档。在五种TREC数据集上,对本文提出的BM25-LR概率检索方法和传统的BM25模型在MAP和P@20指标下进行对比实验,结果表明,本文的方法在所有数据集上MAP值均有显著性提升,在大部分数据集上的P@20值有提升。第二,将文档内的位置特征引入到伪相关反馈方法中,提出了一种基于文档内位置关系的伪相关反馈方法,LRoc。该方法通过对候选扩展词在文档内的不同位置进行建模,对位于文档开头和结尾部分的候选词赋予更高的位置权重,进而,将候选词的位置信息引入到传统的Rocchio模型中,对候选词进行权重优化。该模型在对候选词进行选择和评估时,不仅考虑了候选词的词频重要度,同时也充分考虑词项的位置影响,进而帮助获取更有可能与原始查询相关的扩展词。在五种TREC数据集上,对本文提出的LRoc方法和传统的Rocchio模型在MAP和P@20指标下进行对比实验,结果表明,本文的方法在所有数据集上的MAP和P@20值均有显著性提升。第三,本文设计并实现了一个基于文档内位置关系的信息检索原型系统,该系统采用经典的MVC设计模式,包含六个功能模块。用户根据检索需求输入查询表示,系统将结果文档连同扩展词及其评分返回给用户,通过阅读排名靠前的文档以及扩展词,能够直观地测试模型的可行性和有效性。