论文部分内容阅读
随着信息技术的迅速发展和互联网规模的不断扩大,互联网已经成为了全球最大、应用最广泛的信息库,如何有效检索这些海量信息成为当前研究的重要课题,因此信息检索(Information Retrieval,IR)技术越来越受到人们的关注。搜索引擎(Search Engine,SE)是信息检索技术在互联网领域的实际应用,目的是帮助用户快速、准确的在信息的海洋中找到自己需要的信息。目前,大部分搜索引擎广泛采用的信息检索技术无法满足不同用户背景、不同查询目的和不同检索时期的查询请求。个性化信息检索因为可以向用户提供个性化服务,提高搜索引擎检索结果的精度,成为搜索引擎技术的一个新的发展方向和研究热点。 个性化信息检索需要有效地识别用户兴趣和偏好,并构建用户档案(User Profile,UP)。基于用户浏览行为和搜索历史等用户档案信息的相关反馈技术,由于不需要人工参与,并且可以收集到足够多的用户兴趣和爱好信息,所以广泛用于个性化信息检索。 本文主要研究基于相关反馈的个性化信息检索技术。首先,定量地分析哪些查询将受益于个性化信息检索,即预测查询的个性化潜力。其次,针对个性化信息检索中关键问题,即如何处理动态反馈信息和少量反馈信息,研究基于相关反馈的查询优化技术。再次,根据一个商业搜索引擎的查询日志,建立评价个性化信息检索的数据平台,并用于研究基于用户档案(User Profile,UP)的个性化信息检索。最后,在构建中文评测数据平台时,研究如何确定索引单元,重点研究分词歧义对于信息检索性能的影响,并设计了新颖的混合索引。 具体地说,本文包括以下四个方面的内容: (1)大多数关于个性化信息检索的研究都是针对所有查询的,很少有研究试图回答哪些查询将受益于个性化信息检索。把大规模人工知识库 Wikipedia作为额外的资源,用于预测查询的个性化潜力。从Wikipedia中挖掘出语言学知识,比如查询歧义词等。从Wikipedia中获得的知识可以减小查询日志的数据稀疏问题的影响,避免检索结果的存储空间。实验结果表明此方法的有效性和可行性。 (2)相关反馈是提高信息检索系统性能的重要方法之一。在语言模型下,针对个性化信息检索中关键问题,即如何处理动态反馈信息和少量反馈信息,比较现有相关反馈方法和提出新的相关反馈方法。在研究动态反馈信息时,比较四种典型基于正相关反馈的查询优化方法,研究基于正负反馈的查询优化方法,并尝试一种新的查询优化方法,即线性双边模型,实验结果表明该模型的有效性。在研究少量反馈信息时,尝试相关反馈融合技术。在相关反馈融合中,为寻求伪相关反馈不稳定问题的解决途径,尝试建立一个分类模型,预测伪相关反馈的性能。此方法充分利用多源特征,较准确地预测伪相关反馈性能,而使原始查询、直接反馈和伪相关反馈的融合具备灵活的适应能力。在 TREC评测语料上的实验结果表明,此方法进一步提高检索效果。 (3)个性化信息检索研究中的一个重要问题如何评价个性化信息检索。根据一个商业搜索引擎的查询日志,建立个性化信息检索评价数据平台。通过建立的数据平台,评价基于用户档案(User Profile,UP)的个性化信息检索。以前的研究使用基于用户长期搜索历史的用户档案,提高检索的精度。然而,关于用户档案的有效性,仍然存在很多问题,其中一个关键问题是用户新提交的查询很难受益于用户档案。一种解决方案是收集足够的用户档案,使之可以满足个性化信息检索的需要。尝试从查询日志中挖掘用户档案,主要思想是使用相似用户或者相同查询,抽取相关档案扩展当前用户档案。实验结果显示用户档案扩展能提供更好的检索结果。 (4)在构建中文评测数据平台时,一个重要的问题是如何确定索引单元。中文信息检索中常用的索引单元是词和二元文法。以词为索引单元,会受到未登录词和分词歧义的影响,而以二元文法为索引单元,会占用大量的存储空间。因此,一些研究者提出使用混合索引,同时使用词和二元文法。然而,这些研究只涉及未登录词的处理,而没有考虑分词歧义的影响。于是,重点研究分词歧义对于信息检索性能的影响,并设计了新颖的混合索引。在TREC数据集上的实验结果显示,新颖的混合索引不但可以减少未登录词和分词歧义的影响,而且有效地提高了检索效率。