基于参考文档的信息检索模型的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:scetc203
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,特别是互联网的迅速发展和广泛普及,导致了各种信息资源呈现爆炸式的增长,信息检索系统成为人们获取这些信息必不可少的工具。然而目前的检索系统都是针对群体用户来返回结果的,搜索引擎的用户越来越注重检索结果的个性化,因此传统的检索模型在一定程度上已经不能满足用户的信息需求。正是为了解决传统检索模型的问题,本文应用的参考文档模型(RDM,Reference Document Model)是利用用户的参考文档集对用户的查询和待检索文档集进行伪反馈,使得用户在检索过程中可以充分体现用户的个性。参考文档模型来源于风险最小化模型,参考文档模型的模型空间很灵活,可以是向量空间,也可以是概率分布。参考文档模型中的参考文档是对对待检索文档的补充和扩充,它能包括更多相关内容,提高检索系统,当参考文档是反映用户的兴趣爱好的文档集时,参考文档模型便成为了个性化检索模型。因此本文主要针对以下几个方面展开研究:1.对Sogou查询日志的统计分析。围绕着Sogou日志中用户、查询和点击详细分析了目前搜索引擎的一些特点,阐明了个性化信息检索的必要性。2.给出参考文档模型的概念和定义。3.参考文档模型在向量空间模型下的实现。向量空间模型作为经典的检索模型,本文首先在向量空间上验证了参考文档模型,实验结果表明通过Rocchio算法对查询文档都进行建模的检索结果是最优的。4.参考文档模型在语言模型下的实现。把参考文档模型融入语言模型除了通过参考文档上的反馈对查询和文档分别建模外,本文还对语言模型的平滑技术做了相应的研究。本研究目前取得的成果是对Sogou查询日志进行了统计分析并且验证了参考文档模型在传统的文本检索中性能表现很好,为进一步的研究参考文档模型奠定了基础。
其他文献
膜计算模型(也称P系统)是从生物细胞的组织结构、功能中得到启发,抽象出的一种分布式、并行性的新型计算模型,它是自然计算的一个新分支。由于其内部结构的一些固有特性,P系
计算机技术的蓬勃发展,使其已经深入到各个领域,从随处可见的智能电子设备到规模庞大的服务器集群,信息服务已经无处不在。在软件功能不断增强的同时,安全问题也变得尤为重要
矿井瓦斯爆炸事故是最严重的矿井灾害之一,给国家财产和人民生命安全带来极大威胁。因此,研究瓦斯爆炸事故的机理和特性,并利用虚拟现实技术形象、准确的再现矿井瓦斯爆炸的
在推荐算法领域,基于邻域模型的协同过滤(Collaborative Filtering,CF)推荐算法是一类较为经典成熟的算法,广泛的应用于当今各式各类的推荐系统中。随着大数据时代的来临,数
车标识别作为智能交通系统的一个重要组成部分,在车辆管理和交通管理领域具有广泛的应用前景,同时车标识别为车辆身份认证提供了重要信息具有一定的研究价值。现有的车标识别算
在高速发展的现代社会,传统的教育方式已远远满足不了人们对于知识的需求,同时也曝露出了诸多问题:知识更新速度慢、资源不足、资源利用不充分、教学成本高、问题解决不及时。
有效的资源管理和调度对于分布式计算来说是必不可少的,而对计算任务在不同计算资源之下的运行时间的预估是许多资源调度方法的基础。基于判例的预测技术是近年新出现的一种
近年来,Peer-to-Peer网络(简称P2P)系统已经引起了众多关注,特别是它可以提供文件共享的应用,同时分布式计算和基于Internet的电话也已经成功地实现。在这些应用中,P2P概念主
目前,对等网络技术已经成为计算机领域的一个研究热点。对等网络中存在大量可用的数据对象。由于对等网络的规模庞大,如何在分布式的网络环境中提高内容搜索效率是研究对等网
本文首先描述了身份认证的概念、分类及其使用的关键技术,着重于问答认证技术。接着描述了哈希函数的概念、安全性假设及其在问答认证中的应用。然后从两个层面对哈希函数的