基于查询扩展和主题分析的分布式信息检索

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:songjuan119004
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web数据的爆炸性增长不仅为用户提供了丰富的知识来源,同时也给检索系统造成了巨大的负担。传统的集中式搜索引擎因其覆盖度低、索引更新频率有限等问题,无法为快速增长的网页继续提供有效的检索支持。而相较于传统的集中式检索,分布式信息检索的优势在于检索系统间分工协作,能够快速响应用户查询并且处理大规模数据。因此,海量数据查询过程中,分布式信息检索技术越来越成为重要的研究内容。本文首先介绍了分布式信息检索的相关背景和研究现状,然后分别对其中三个重要的实施环节:用户查询优化、集合选择和结果合并介绍了现有的相关技术和研究概况,并针对其中存在的不足提出了改进策略,具体如下:(1)用户查询优化。分布式检索中用户查询优化是以相关反馈技术为基础,通过补充修正原始用户查询,避免用户主题偏移的现象发生。这一过程中,选择合适的相关反馈文档和查询扩展词,是保证检索过程不偏离用户查询主题的关键。本文针对集合主题分布的多样性,提出了一种基于文档主题的集合相关性查询扩展方法,以本地集合扩展策略为基础,通过引入所有相同主题的检索结果文档,克服了本地集合相关性扩展文档过少的问题,从而为所有集合建立不同的查询扩展模型,提高了分布式检索的准确性。(2)集合选择。集合选择是分布式信息检索中的重要问题,集合选择的效果将影响相关性结果文档产生的准确性。而现有集合选择策略普遍存在模型无法进行有效扩展、缺乏主题信息等缺点。因此,文中提出一种分布式检索中基于主题的语言模型集合选择策略。该策略采用文本聚类得到集合中文档的主题信息,通过引入Relevance model构建基于主题的语言模型,从而得到各个信息集合的查询相关性排名,并完成集合选择过程。实验表明,与CORI、CRCS等传统集合选择算法相比,本文方法的检索效果得到了显著提高,为后续分布式检索结果合并阶段的实现奠定了良好的基础。(3)结果合并。结果合并是分布式信息检索的最后一个环节,合并策略将直接影响检索结果的排名。基于目前归一化文档得分等结果合并策略的不足,并综合考虑分布式检索传输带宽和存储空间,本文提出一种基于主题划分的分布式检索混合结果合并策略。该方法对于给定的用户查询,基于主题进行集合搜索,并利用检索结果文档的集合得分、排名及RSV值等信息进行逻辑回归拟合,完成整个结果合并过程,克服了传统合并算法过度依赖中间结果得分的缺点,并取得了良好的研究效果。
其他文献
在MMOG(Massively Multiplayer Online Games)中,玩家之间协作和互动使MMOG具有更强的竞争性和趣味性。但是在现有的MMOG中,所应用的玩家联盟策略比较简单,玩家之间通过简单的组
随着Internet的广泛普及和发展,人们在对信息获取快捷的同时也对信息安全访问提出了需求,而访问控制作为防止非法授权访问的一种网络安全手段,被广泛进行了应用。基于角色的
随着互联网数据量呈现爆炸性增长,海量数据的存储和查询给数据中心带来了极大的挑战。MongoDB作为一种新型的非关系数据库,其灵活的数据存储格式和高查询性能使其得到广泛应
僵尸网络是攻击者出于恶意目的传播僵尸程序控制大量主机,并通过一对多的命令与控制信道所组成的网络,实现信息窃取、分布式拒绝服务攻击和垃圾邮件发送等攻击目的。P2P僵尸
计算机数字图像处理技术已经得到广泛应用,本文是将其应用于遥控器生产的一个研究和探索的实例,其中图像分割技术是关键。遥控器面板的智能检测系统,是将原来的人工检测面板
随着科技的发展,出现了大量对计算能力需求很高的应用,而高性能计算机的高造价促使了集群的诞生和发展。集群是以网络技术连接起来的工作站或PC机的组合,它在工作中是一个统
电子商务网站规模的迅速增长使用户无法在海量的数据中快速地发现自己感兴趣的信息,因此如何为提高网站的性能、为用户提供个性化的便捷服务是电子商务网站竞争的关键。作为
图像融合是图像处理中的一个新兴研究领域。其目的是分析每幅待融合图像的特征,采用合适的融合策略对这些特征进行融合,最终得到更符合人或计算机视觉,而且更适合进一步图像
在并行计算领域,互连网络的拓扑结构一直是国际上研究的热点。当前,人们已提出了多种互连网络拓扑结构,其中超立方体(hypercube)是最流行的互连网络拓扑结构之一。它已被应用
语音信号处理主要包括三个部分:语音识别、语音编码、语音合成。在语音编码这个领域,现在的研究集中在低速率语音编码器方面,本文的目的就是进行低速率语音编码器算法的研究。