论文部分内容阅读
Web数据的爆炸性增长不仅为用户提供了丰富的知识来源,同时也给检索系统造成了巨大的负担。传统的集中式搜索引擎因其覆盖度低、索引更新频率有限等问题,无法为快速增长的网页继续提供有效的检索支持。而相较于传统的集中式检索,分布式信息检索的优势在于检索系统间分工协作,能够快速响应用户查询并且处理大规模数据。因此,海量数据查询过程中,分布式信息检索技术越来越成为重要的研究内容。本文首先介绍了分布式信息检索的相关背景和研究现状,然后分别对其中三个重要的实施环节:用户查询优化、集合选择和结果合并介绍了现有的相关技术和研究概况,并针对其中存在的不足提出了改进策略,具体如下:(1)用户查询优化。分布式检索中用户查询优化是以相关反馈技术为基础,通过补充修正原始用户查询,避免用户主题偏移的现象发生。这一过程中,选择合适的相关反馈文档和查询扩展词,是保证检索过程不偏离用户查询主题的关键。本文针对集合主题分布的多样性,提出了一种基于文档主题的集合相关性查询扩展方法,以本地集合扩展策略为基础,通过引入所有相同主题的检索结果文档,克服了本地集合相关性扩展文档过少的问题,从而为所有集合建立不同的查询扩展模型,提高了分布式检索的准确性。(2)集合选择。集合选择是分布式信息检索中的重要问题,集合选择的效果将影响相关性结果文档产生的准确性。而现有集合选择策略普遍存在模型无法进行有效扩展、缺乏主题信息等缺点。因此,文中提出一种分布式检索中基于主题的语言模型集合选择策略。该策略采用文本聚类得到集合中文档的主题信息,通过引入Relevance model构建基于主题的语言模型,从而得到各个信息集合的查询相关性排名,并完成集合选择过程。实验表明,与CORI、CRCS等传统集合选择算法相比,本文方法的检索效果得到了显著提高,为后续分布式检索结果合并阶段的实现奠定了良好的基础。(3)结果合并。结果合并是分布式信息检索的最后一个环节,合并策略将直接影响检索结果的排名。基于目前归一化文档得分等结果合并策略的不足,并综合考虑分布式检索传输带宽和存储空间,本文提出一种基于主题划分的分布式检索混合结果合并策略。该方法对于给定的用户查询,基于主题进行集合搜索,并利用检索结果文档的集合得分、排名及RSV值等信息进行逻辑回归拟合,完成整个结果合并过程,克服了传统合并算法过度依赖中间结果得分的缺点,并取得了良好的研究效果。