论文部分内容阅读
信息资源的海量增长,提升了用户获取资源的可能性。但信息的过载,同时也降低了用户获取有用资源的可能性。随着时代的变迁,用户在整个检索行为过程中,其潜在信息需求呈现出从单一性演变为具有多变性、多层面性和多义性的特征,并且对于信息资源的品质要求不断提升。但是与此同时,用户对于其信息需求的构造方式却保持不变,仍以短查询为主。另外,待检索文本内容却是相对稳定和固定的,使得这种用户信息需求强调的高质量和用户查询构造结果的低质量之间的矛盾越来越尖锐,给文本检索中的相关性研究带来极大的挑战。就文本检索中的伪相关反馈(PseudoRelevance Feedback,PRF)技术而言,如何分析和提高反馈源质量,即伪相关文档(pseudo relevant document)中与用户查询更相关的信息尤为重要,是提升PRF鲁棒性的核心问题。其中,对文本的分析和理解,即文本的表示或建模方式是实现文本间相关性研究的关键。本文工作将以文本理解为基础,围绕提高反馈源质量方法、减轻“查询偏移”现象为主旨,研究PRF中的若干问题。具体工作内容如下: 1.针对PRF中,由于伪相关文档内容(或主题)冗余及语义相对单一,加剧了“查询偏移”现象。为了缓解这一问题,本文利用复杂网络实现文本理解,研究在文本网络关键节点评价过程中,考虑网络中节点之间信息缺失和不确定性的影响,提出强度熵概念评估、量化和识别文本网络中的关键节点,通过文本内容词项之间特定的关联关系实现文本关键词的抽取,识别伪相关文档中的关键词。进一步地,通过融入隐式查询结果多样化的思想,从用户多层面信息需求角度出发,抽取和构建伪相关文档集,提出一种基于文本关键词质量的PRF方法。不仅提高了文本的标引能力,还达到了改善反馈源质量的目标。 2.针对传统PRF将文档作为反馈源最小单元提取扩展词,提取粒度简单粗糙,使得反馈源质量下降,检索结果鲁棒性差,存在查询性能过度依赖于伪相关文档质量的问题。研究利用文本内容分析技术,尝试将文本语义内容看作待区分单元,将抽象的文档内容表征文档,即用伪文档来表示文档内容作为反馈源,缓解反馈源质量不高的问题。在伪文档中寻找与用户信息需求更加符合的语义层面的体现,实现了从更细微的粒度来提取扩展词,提出了一种基于伪文档的PRF方法。 3.针对主题内容分析中,存在词项词频对主题建模影响的问题,使得主题建模结果不能很好地体现建模数据集的本质,即高频词对低频词在主题建模中的负面影响,使得低频词无法完成表达文本语义的能力。提出利用特定的新闻语料中富含的标题信息对主题模型进行优化的方法,以提升低频词的表达能力,增强主题建模结果对文本语义表达的区别性和特征性能力。