基于相关反馈的个性化信息检索技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:ua8722
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的迅速发展和互联网规模的不断扩大,互联网已经成为了全球最大、应用最广泛的信息库,如何有效检索这些海量信息成为当前研究的重要课题,因此信息检索(Information Retrieval,IR)技术越来越受到人们的关注。搜索引擎(Search Engine,SE)是信息检索技术在互联网领域的实际应用,目的是帮助用户快速、准确的在信息的海洋中找到自己需要的信息。目前,大部分搜索引擎广泛采用的信息检索技术无法满足不同用户背景、不同查询目的和不同检索时期的查询请求。个性化信息检索因为可以向用户提供个性化服务,提高搜索引擎检索结果的精度,成为搜索引擎技术的一个新的发展方向和研究热点。  个性化信息检索需要有效地识别用户兴趣和偏好,并构建用户档案(User Profile,UP)。基于用户浏览行为和搜索历史等用户档案信息的相关反馈技术,由于不需要人工参与,并且可以收集到足够多的用户兴趣和爱好信息,所以广泛用于个性化信息检索。  本文主要研究基于相关反馈的个性化信息检索技术。首先,定量地分析哪些查询将受益于个性化信息检索,即预测查询的个性化潜力。其次,针对个性化信息检索中关键问题,即如何处理动态反馈信息和少量反馈信息,研究基于相关反馈的查询优化技术。再次,根据一个商业搜索引擎的查询日志,建立评价个性化信息检索的数据平台,并用于研究基于用户档案(User Profile,UP)的个性化信息检索。最后,在构建中文评测数据平台时,研究如何确定索引单元,重点研究分词歧义对于信息检索性能的影响,并设计了新颖的混合索引。  具体地说,本文包括以下四个方面的内容:  (1)大多数关于个性化信息检索的研究都是针对所有查询的,很少有研究试图回答哪些查询将受益于个性化信息检索。把大规模人工知识库 Wikipedia作为额外的资源,用于预测查询的个性化潜力。从Wikipedia中挖掘出语言学知识,比如查询歧义词等。从Wikipedia中获得的知识可以减小查询日志的数据稀疏问题的影响,避免检索结果的存储空间。实验结果表明此方法的有效性和可行性。  (2)相关反馈是提高信息检索系统性能的重要方法之一。在语言模型下,针对个性化信息检索中关键问题,即如何处理动态反馈信息和少量反馈信息,比较现有相关反馈方法和提出新的相关反馈方法。在研究动态反馈信息时,比较四种典型基于正相关反馈的查询优化方法,研究基于正负反馈的查询优化方法,并尝试一种新的查询优化方法,即线性双边模型,实验结果表明该模型的有效性。在研究少量反馈信息时,尝试相关反馈融合技术。在相关反馈融合中,为寻求伪相关反馈不稳定问题的解决途径,尝试建立一个分类模型,预测伪相关反馈的性能。此方法充分利用多源特征,较准确地预测伪相关反馈性能,而使原始查询、直接反馈和伪相关反馈的融合具备灵活的适应能力。在 TREC评测语料上的实验结果表明,此方法进一步提高检索效果。  (3)个性化信息检索研究中的一个重要问题如何评价个性化信息检索。根据一个商业搜索引擎的查询日志,建立个性化信息检索评价数据平台。通过建立的数据平台,评价基于用户档案(User Profile,UP)的个性化信息检索。以前的研究使用基于用户长期搜索历史的用户档案,提高检索的精度。然而,关于用户档案的有效性,仍然存在很多问题,其中一个关键问题是用户新提交的查询很难受益于用户档案。一种解决方案是收集足够的用户档案,使之可以满足个性化信息检索的需要。尝试从查询日志中挖掘用户档案,主要思想是使用相似用户或者相同查询,抽取相关档案扩展当前用户档案。实验结果显示用户档案扩展能提供更好的检索结果。  (4)在构建中文评测数据平台时,一个重要的问题是如何确定索引单元。中文信息检索中常用的索引单元是词和二元文法。以词为索引单元,会受到未登录词和分词歧义的影响,而以二元文法为索引单元,会占用大量的存储空间。因此,一些研究者提出使用混合索引,同时使用词和二元文法。然而,这些研究只涉及未登录词的处理,而没有考虑分词歧义的影响。于是,重点研究分词歧义对于信息检索性能的影响,并设计了新颖的混合索引。在TREC数据集上的实验结果显示,新颖的混合索引不但可以减少未登录词和分词歧义的影响,而且有效地提高了检索效率。
其他文献
随着网络安全问题的日益严峻,网络入侵检测系统(NIDS)凭借其自身特点有效地弥补了传统安全保护措施的不足,已成为计算机和任何网络安全架构的重要组成部分,在网络安全防御策略中发
流程工业是国民经济发展的重要支柱。流程工业综合自动化系统(CIPS)是提高流程工业竞争力的重要技术,目前采用企业经营优化层(ERP)、生产执行系统(MES)、过程控制系统(PCS)的三
在建500米口径球面射电望远镜(Five-hundred-meter Aperture Spherical radio Telescope,简称FAST)依托我国贵州省喀斯特地形而建,是我国具有独立自主知识产权的国家“十二五
服装裁剪中的画印布局,造船业板材切割中的部件拼装和机械行业中的冲压落料等二维不规则图形布局问题都属于NP-难问题,存在求解困难。为此,许多学者进行了大量的研究。其中,
关联规则挖掘是数据挖掘领域的一个重要研究方向,而频繁模式挖掘作为其中的一个关键技术和步骤,目前已经取得了较丰硕的成果。然而由于频繁模式挖掘的计算复杂度,因此业界提
相对于IP组播在解决部署、安全性、扩展性以及拥塞控制等方面遇到的困难,应用层组播在这些方面具有较大优势,因此近年来得到了较大的发展。人们提出了许多应用层组播模型,有些
近年来,分形在理论和应用方面都取得了重要进展,基于分形理论绘制的图案结构复杂,色彩斑斓,变化万千,给人以震撼的美感,特别是广义M-J集分形图案已广泛应用于产品的包装和防
人脸识别技术凭借直观、非接触等特点,成为了生物特征识别领域的焦点,因此也积累了大量的成熟理论和算法。当前,在非理想条件下的人脸识别仍然存在一些不足,因此对非理想的条
近年来,随着人脸表情识别理论研究的深入和人机交互技术的发展,基于视频流的人脸表情识别技术已成为现阶段计算机视觉领域的一个研究热点。本文对人脸表情识别技术进行深入研究
互联网是由多个独立管理的域组成的网络,这些独立的管理域被称作自治系统AS。互联网上自治系统内部通过内部网关协议交换局部路由信息,如开放最短路由优先协议OSPF。自治系统