论文部分内容阅读
伪相关反馈与查询扩展作为信息检索领域的关键技术,能极大地提高信息检索系统的性能,一直以来深受国内外信息检索领域学者的重视。在伪相关反馈的过程中,对原始查询进行扩展是非常重要的一个环节。在选取扩展词项的时候,传统的伪相关反馈方法大都聚焦于评估候选扩展词项在伪相关文档中的词频重要性和显著性,往往会遗漏候选扩展词项与查询词项之间潜在语义关系。本文结合经典的伪相关反馈查询扩展方法,围绕候选扩展词项的语义捕获与表示,提出了若干个具有不同语义特征的伪相关反馈查询扩展方法。实验结果表明这些方法能够优化扩展词项的质量,提高信息检索的效果。
主要的研究工作和创新点包含以下几个方面:
(1)本文提出了一种基于词项超空间语义的伪相关反馈模型HRoc。该模型采用一种改进的超空间模拟语言算法度量查询词项与候选扩展词项之间的潜在语义关系,并在传统的Rocchio模型中融入这一语义关系完成查询扩展。在此基础上,本文为HRoc模型设计了三种不同的归一化策略。这些策略可以用来协调由不同特征生成的候选扩展词项的权重。最后,本文还引入了一个自适应函数来代替HRoc模型中的参数D,它可以根据文档长度自动选择窗口大小。在PMC2016数据集上的实验结果表明,本文所提出HRoc模型在各项评价指标上优于其他所对比的模型,能有效地提高信息检索的精度和查全率,得到比其他模型更精确的结果。同时,引入了自适应参数后的HRoc模型,在达到同等性能的情况下使用了更少的超参数,提高了模型的运行效率和适用性,有助于用户更高效地检索文档。
(2)伪相关反馈是一种有效并被广泛采用的查询扩展技术,它假定初始检索结果集中排名最高的一部分文档是相关的,然后从这些文档中提取扩展词项。在选择扩展词项时,大多数传统模型都没有同时考虑词项的词频显著性以及候选词项与查询词项之间的共现关系。然而,直观地看,与查询词项同时出现并且频率较高的词项更有可能与查询主题相关。本文提出了一种基于核函数词项共现语义的伪相关反馈方法。该方法使用了高斯核函数来模拟基于邻近位置的查询词与候选扩展词之间的潜在语义关系,并将这一语义关系以及词频显著性特征同时引入到传统的Rocchio模型和RM3模型中分别完成查询词项扩展,由此提出了KRoc模型和KRM3模型。在9个TREC数据集上的实验结果显示,本文所提出的基于核函数词项共现语义的伪相关反馈方法在MAP和P@10两个指标方面明显优于其他重要的模型,验证了本文所提出的方法能有效地缓解查询主题漂移的现象,提高最终伪相关反馈的检索效果。
(3)本文提出了基于深度学习技术的伪相关反馈模型。在实际查询中,句子携带了其组成词项的额外的语义信息。忽略查询句子语义信息的检索模型往往难以准确地判别查询主题中多义词项的正确含义,从而曲解用户的真实意图,导致检索效果较差。为了正确地识别用户的真实查询意图,改善信息检索系统的语义理解能力,本文对基于深度学习技术的句子语义相似度计算进行了深入研究,将词项所在句子和查询词项所在句子之间的语义相似度信息作为扩展词项的句子语义权重,并将该权重引入经典的Rocchio模型中,提出基于BERT模型句子潜在语义的伪相关反馈模型BRoc。在标准TREC数据集上的实验结果表明,本文所提出的方法能有效提取查询主题和文档中的句子语义特征,并且对词的多义性也有较好的区分能力,可以改善传统伪相关反馈模型的性能。
主要的研究工作和创新点包含以下几个方面:
(1)本文提出了一种基于词项超空间语义的伪相关反馈模型HRoc。该模型采用一种改进的超空间模拟语言算法度量查询词项与候选扩展词项之间的潜在语义关系,并在传统的Rocchio模型中融入这一语义关系完成查询扩展。在此基础上,本文为HRoc模型设计了三种不同的归一化策略。这些策略可以用来协调由不同特征生成的候选扩展词项的权重。最后,本文还引入了一个自适应函数来代替HRoc模型中的参数D,它可以根据文档长度自动选择窗口大小。在PMC2016数据集上的实验结果表明,本文所提出HRoc模型在各项评价指标上优于其他所对比的模型,能有效地提高信息检索的精度和查全率,得到比其他模型更精确的结果。同时,引入了自适应参数后的HRoc模型,在达到同等性能的情况下使用了更少的超参数,提高了模型的运行效率和适用性,有助于用户更高效地检索文档。
(2)伪相关反馈是一种有效并被广泛采用的查询扩展技术,它假定初始检索结果集中排名最高的一部分文档是相关的,然后从这些文档中提取扩展词项。在选择扩展词项时,大多数传统模型都没有同时考虑词项的词频显著性以及候选词项与查询词项之间的共现关系。然而,直观地看,与查询词项同时出现并且频率较高的词项更有可能与查询主题相关。本文提出了一种基于核函数词项共现语义的伪相关反馈方法。该方法使用了高斯核函数来模拟基于邻近位置的查询词与候选扩展词之间的潜在语义关系,并将这一语义关系以及词频显著性特征同时引入到传统的Rocchio模型和RM3模型中分别完成查询词项扩展,由此提出了KRoc模型和KRM3模型。在9个TREC数据集上的实验结果显示,本文所提出的基于核函数词项共现语义的伪相关反馈方法在MAP和P@10两个指标方面明显优于其他重要的模型,验证了本文所提出的方法能有效地缓解查询主题漂移的现象,提高最终伪相关反馈的检索效果。
(3)本文提出了基于深度学习技术的伪相关反馈模型。在实际查询中,句子携带了其组成词项的额外的语义信息。忽略查询句子语义信息的检索模型往往难以准确地判别查询主题中多义词项的正确含义,从而曲解用户的真实意图,导致检索效果较差。为了正确地识别用户的真实查询意图,改善信息检索系统的语义理解能力,本文对基于深度学习技术的句子语义相似度计算进行了深入研究,将词项所在句子和查询词项所在句子之间的语义相似度信息作为扩展词项的句子语义权重,并将该权重引入经典的Rocchio模型中,提出基于BERT模型句子潜在语义的伪相关反馈模型BRoc。在标准TREC数据集上的实验结果表明,本文所提出的方法能有效提取查询主题和文档中的句子语义特征,并且对词的多义性也有较好的区分能力,可以改善传统伪相关反馈模型的性能。