论文部分内容阅读
随着互联网资源的多语言性和用户所使用语言的日益多样性,跨语言信息检索引起了众多研究者的重视,成为当前信息检索领域的一个研究热点。跨语言检索系统允许用户使用一种语言的“查询”在另外的一种或多种语言的“文档”中进行检索,这对于很多不精通外语的搜索引擎用户而言具有重要意义。基于语言模型的检索方法为信息检索领域开辟了一个很有前景同时也具有相当挑战性的方向。与传统检索模型相比,语言模型不仅具有良好的理论基础,而且非常灵活,经过简单的变换很容易推演出其他经典的检索模型。此外,大量的实验结果表明,该方法的检索效果优于其他检索模型,因而一经提出便受到了广大研究人员的青睐。然而当前语言模型方法的研究主要集中在单语检索任务中,很少有研究关注语言模型方法在跨语言检索中的应用。针对这个问题,本文在系统介绍语言模型检索方法的基础上,将语言模型方法扩展到跨语言检索任务中,介绍了两个跨语言检索模型:统计翻译模型和跨语言相关语言模型。未登陆词问题与翻译歧义问题的存在是制约查询翻译方法的主要因素。针对这两个问题,本文给出了相应的解决策略:(1)基于Web的未登录词翻译提取。传统的翻译提取方法大都基于共现统计的,其本质是利用候选词与待翻译未登录词之间的共现次数等统计信息来衡量二者之间互译的可能性,这类方法在训练样本足够时可以很好的工作。然而目前主流搜索引擎返回的结果中仅包含少量的摘要信息,通常只有几十或几百字,在这么小的样本集上做统计,很难保证统计结果的可靠性。为了解决这个问题,本文中引入一个特别适用于小样本环境的度量准则——频率相似性,实验结果表明该方法不仅可以提高翻译词提取正确率,还可以改善跨语言检索性能。(2)基于图排序的歧义消解。首先将歧义消解问题转化成图中节点(候选翻译词)的Ranking问题,然后利用PageRank等随机游走算法迭代计算图中每个节点的权重,权重越大表明相应的候选词越有可能成为正确翻译,当算法收敛并达稳定状态后选择权值较高的候选词作为原始查询的正确翻译。