论文部分内容阅读
信息检索为人们获取网络信息带来了巨大的便利,网络上多语言信息资源的大规模存在,也使得用户对跨语言信息检索(Cross Language Information Retrieval,简称CLIR)的需求不断增长。在跨语言信息检索任务中,查询式与检索结果来自不同的语种,语词不匹配的问题尤为严重。在当前机器翻译质量有限的情况下,有效借鉴已有单语信息检索中的相关技术,同时有机结合跨语言检索的任务特点,提高跨语言信息检索的性能,是一个具有重要学术和应用价值的研究方向。相关反馈技术是提高用户对检索结果满意度的关键技术之一,在单语信息检索任务中取得了广泛的成功,而在多语言检索任务中,如何利用来自不同语言领域信息之间的相关性和互补性,设计有效的多语言相关反馈机制,得到了越来越多研究人员的重视。本文面向跨语言信息检索任务,对多语言伪相关反馈(Pseudo Relevance Feedback,简称PRF)技术展开研究,其中的一个关键问题是如何选择有价值的多语言相关词项对查询式及其翻译进行扩展优化。已有的跨语言反馈方法多从文档层面进行反馈计算,并将整个伪相关文档中的高频词作为查询式的扩展词项。本文从更细粒度的主题层面进行跨语言伪相关反馈,从伪相关反馈信息的质量、多语言伪相关反馈信息之间的相关性以及多语言扩展词的有用性等方面出发,逐步递进地提出了一系列基于主题的跨语言伪相关反馈模型,并对多语言相关扩展词的选取方法进行了探讨。论文的主要贡献包括:提出了一个基于单语主题的跨语言伪相关反馈模型。已有的伪相关反馈策略大多基于检索结果文档进行,而文档内容丰富多样,可能包含与查询式关系并不十分密切的其他内容。本模型在查询翻译前后的不同阶段,分别对源语言检索文档和目标语言检索文档进行主题建模,根据不同语言的文档-主题分布以及主题-词分布,在检索结果文档中选择与查询式相关的主题,进而在这些主题中选择高概率词作为反馈信息。在同等条件下的实验结果表明,基于主题层的跨语言反馈效果与已有的基于文档层的跨语言反馈策略相比更加鲁棒,前者的CLIR平均检索排序结果(nDCG)比无反馈机制的CLIR提高了1.3%,而后者的最好反馈结果只提高了0.4%,噪音较多时甚至会对跨语言检索性能造成负面影响,这说明更细粒度的反馈信息质量更为可靠,更加适合跨语言反馈任务。提出了一个基于双语主题的跨语言伪相关反馈模型。与单语信息检索相比,跨语言检索可以获得双语检索结果,这就为改善伪相关反馈的性能提供了一些新的材料。本模型将关于同一查询式的双语检索文档视为内容上相关的可比语料,利用扩展的双语主题模型同时对源语言反馈文档和目标语言反馈文档进行建模,基于“共享”的双语主题对查询式及其翻译进行反馈扩展。该模型充分利用了多语言反馈信息之间的相关性,与已有的分阶段执行单一语种反馈的机制相比,考察的反馈信息更为丰富,在可比性较高的双语检索文档上取得了较好的跨语言反馈效果,实验表明,基于双语主题伪相关反馈模型的CLIR的平均检索排序效果与无反馈机制的CLIR相比提高了2.4%。提出了一个基于弱相关主题对齐的跨语言伪相关反馈模型。当一次检索得到的双语结果可比性差时,基于双语主题的跨语言伪相关反馈模型就难以获得强相关的“共享”双语主题。本模型针对此问题,提出利用翻译知识建立不同语言主题之间的对齐关系,融合翻译特征以及web同现特征的多语言词项相似度评分函数,获取弱相关对齐主题,并从中抽取有用的扩展词。该模型有效抑制了跨语言查询中的主题偏移问题,更加适用于对可比性较差的web检索结果进行跨语言反馈扩展,实验表明,基于弱相关主题对齐反馈模型的CLIR平均排序效果比无反馈机制CLIR提高了6.4%。实现了一个基于跨语言伪相关反馈机制的汉英跨语言信息检索系统CTP-CLIR。本系统实现了自动访问web获取开放语料以及对本地数据库执行多语言信息、检索的功能,融合了本文所提出的多种跨语言伪相关反馈模型,可以进行高质量的基于多种伪相关反馈机制的汉英跨语言信息检索。