基于上下文的个性化信息检索技术研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:pb2001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
搜索引擎是互联网用户最常用的信息查询工具。目前主流的搜索引擎并没有明确区分不同用户的查询意图,而不同用户即使输入相同的查询词,其查询需求也是有差别的。个性化信息检索技术就是针对以上问题提出的。个性化信息检索通过收集和分析个人信息和查询的上下文,而不是仅仅依靠检索词来判断用户的真实需求,因而能够根据用户的不同需求而返回个性化的检索结果以提高检索精度本文在对个性化信息检索相关技术进行了较为全面、深入的分析基础上,分别研究短期上下文和长期上下文的个性化信息,以及如何根据基于上下文的个性化信息进行个性化模型建模,从而改善信息检索系统查询性能。最后搭建了一个基于上下文的个性化检索原型系统。在研究短期上下文的个性化信息方面,为了改善信息检索系统对Ad hoc请求只针对查询词的缺点,首先给出了基于上下文的个性化检索的形式化描述,其次设计了短期上下文的个性化检索算法。该算法以单元统计语言模型为基础,结合隐性相关反馈技术,克服了用户Ad hoc请求时仅依靠单独查询词的局限性。通过实验证明该算法使查询精度平均提高50%。在研究长期上下文的个性化信息方面,为了克服在传统信息检索系统中,无法根据个人长期行为特点进行响应的缺点,本文以北大网络中心对天网搜索引擎的用户行为分析为基础,设计了长期上下文的个性化检索算法。该算法通过分析用户行为日志,建立起长期个性化模型,对当前查询起到改善作用。通过实验证明了该方法的有效性和较好的抗噪声性。本文设计并实现了一个基于火狐浏览器的个性化检索系统。该系统以基于短期上下文的个性化检索算法为算法基础,利用Lemur语言模型工具,以搜狗实验室公开的全网新闻数据作为语料集。同时利用该系统作为今后研究的实验平台,搜集真实用户行为日志,为今后研究工作奠定基础。
其他文献
人类从当前“以设备为中心”的时代,已经进入了“以服务为中心的时代”。现在,“云”正成为IT业界关注的焦点。Hadoop是Apache开源组织的一个分布式计算开源框架,它受到最先
非刚体运动重建,是计算机视觉领域的热点研究课题。该技术主要研究如何从二维动态视频序列中恢复非刚体对象的三维结构和摄像机运动的相关参数。该技术可以广泛应用于机器人视
P2P是近年来互联网最热门的技术,在VoIP、下载、流媒体、协调计算等领域得到飞速发展,被财富杂志评为影响互联网的四大科技之一。P2P技术体现了互联网最根本的内涵——自由和
支持向量机(Support Vector Machine)是数据挖掘的新方法,也是一种小样本统计工具,它在解决小样本、非线性及高维的模式识别问题上具有其他机器学习方法难以企及的优势。在支
实体间语义关系抽取是信息抽取中的重要环节。目前,在中文语义关系抽取中基于特征向量的机器学习方法占重要地位,它的研究重点在于如何获取各种有效的词法、语法和实体等特征
基于关键词的信息检索系统首先把原始的文本信息中的关键词建立倒排索引。当用户输入查询关键词后,检索系统把用户输入的关键词从倒排索引库中查询,返回包含关键词的文档。基
无线传感器网络是一种新兴的网络,融合了很多新的技术,因此,具有很强的通信能力,在各个领域都得到了广泛的应用。在无线传感器网络中,一个重要的技术是无线传感器节点定位,因
学位
果蝇优化算法(Fruit Fly Optimization Algorithm,FOA)是一类新的全局优化群智能算法。该算法源于对果蝇觅食行为的模拟,算法优点明显,如原理简单、调节参数较少、代码容易实
在安全事件中,恶意代码造成的经济损失占有最大的比例。恶意代码的检测技术总是滞后于新恶意代码的出现。一方面是人们很难区别正常代码和恶意代码;另一方面,很多信息系统缺少必