Web信息检索的词项邻近度研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:gululukuaican
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速普及与Web网站的蓬勃发展,如何在海量数据中快速、准确地找到有效的信息,成为了一个重要课题。搜索引擎是信息发现的有效手段,努力提升搜索质量,让用户更准确的获取所需信息,具有非常重要的实际意义。经过科研人员的不懈努力,提出了大量的信息检索模型。近年来的研究表明,文档中词项的邻近关系可以影响相关性得分,查询词出现的越密集、得分越高。  本文重点研究了Web信息检索中的词项邻近度问题,主要探讨了邻近度特征及评价、邻近度检索模型、模型的融合、模型的应用。本研究的主要贡献包括:  1.借鉴前人的研究成果,我们提出了去重滑动窗口等4种基于滑动窗口的特征;提出了MinK覆盖等3种基于词项距离的特征。为了验证特征,我们提出了两种特征评价方法:特征均值分组分类比较法、直接排序宏平均比较法。实验表明:去重滑动窗口、MinK覆盖等特征具有很好的区分度,可供邻近度模型使用。  2.基于上述研究成果,我们将特征转化为检索模型。本文使用去重滑动窗口替换BM25模型中的词频、子查询拓展IDF替换BM25模型中的IDF,提出了SW25检索模型;通过核函数将词项距离转化为概率形式,融入语言模型框架,提出了SpanLM检索模型。词项邻近度模型需要与传统模型进行融合,为此,我们提出了线性加权、加乘奖励、排序学习等三种方式。实验结果表明:SpanLM模型在线性组合后提升显著:WT2G(24.7%)、WT10G(16.6%)、GOV(10.8%)、GOV2(20.43%);排序学习模型的提升约为9.87%。工作对比表明,本文提出的模型与已有研究成果的提升基本相当,且本文研究成果具有更好的鲁棒性。  3.最后,我们在现有的分布式检索系统中,引入了词项邻近度检索层,实现了系统原型。该系统应用了MongoDB、Gearman等技术,完成了邻近度模型的分布式、快速计算。测试结果表明,该原型系统可以满足实际检索服务的性能要求。
其他文献
随着互联网的迅速发展,互联网所产生的巨大能耗不但成为制约网络发展的一大关键问题,而且是影响环境和社会发展的重要问题。传统网络遵循资源超额供给、冗余设计等设计原则,并没
学位
正确理解用户查询的搜索意图可以提供更加准确、个性化的搜索服务,提高搜索引擎搜索结果质量,改善用户搜索体验。查询理解是目前信息检索领域重点研究问题之一。为了正确的理解
随着集成电路制造工艺的不断进步,处理器芯片的运算能力取得巨大提升,芯片的I/O互连带宽已经成为高性能计算系统的性能瓶颈之一。为满足日益增长的带宽需求,互连协议都在不断加
随着网络技术的日益普及,企事业单位内部的电子办公系统日趋增多,由于各个系统之间的独立性,用户需要多组用户名密码去访问多个办公系统,给用户带来了不便。为了减少用户的这种麻
Android操作系统是一款基于Linux内核的开源操作系统,目前在以手持移动设备为代表的各类硬件平台上均具有广阔的应用前景。龙芯3A是我国首款国产商用4核通用处理器,可应用于个
学位
随着信息化建设的不断深入,我国的电子政务建设取得了长足发展。在其发展过程中,随着用户数和访问量的快速增长,积累了海量的政务数据,进入了大数据时代。目前电子政务数据库的建
学位
学位