论文部分内容阅读
随着统计方法的迅速发展,大规模语料库已成为自然语言处理领域不可或缺的基础资源。其中,平行语料库由于其组成语料的互译性,广泛地应用于跨语言对比研究、翻译消歧、机器翻译及辅助翻译等领域。与平行语料库相比,可比较语料库具有易于获取、资源丰富、内容新颖等特点。目前,基于可比较语料库的研究越来越广泛。本文以“基于可比较语料库的命名实体互译对挖掘”为背景,构建大规模的中英可比较语料库。通过分析现有可比较语料库构建方法中的不足,本文提出了基于跨语言信息检索与特征过滤相结合的方法,旨在获取大规模、高质量的中英可比较语料库。首先,抽取出源语言(中文)文档中的关键词,把关键词翻译成目标语言(英文)查询词,并根据一定的标准组合成查询语句;其次,利用信息检索系统检索与查询语句相关的目标语言文档,与源语言文档共同组成可比较文档对;最后,通过基于日期、相似度等特征的过滤方法对已生成的文档对进行过滤。本文的主要贡献包含以下三个方面:(1)在关键词抽取过程中,有效地结合了关键短语与关键单词。采用不同的方法构造候选短语及候选单词集合,并对其分别排序。同时,通过使用基于对称条件概率及局部最大值相结合的方法对分词结果进行修正,提高了关键词的抽取效果。(2)基于不同的特征设计了两种过滤方法,对可比较文档对进行过滤。第一种方法基于文档的发布日期及检索系统返回的查询语句与目标语言文档间的相似度进行过滤。在此基础上,第二种过滤方法综合考虑了可比较文档对中互译关键词个数及权重,引入了新特征KSD。实验表明,基于日期、相似度及KSD的过滤方法比第一种方法更为有效,对齐质量较高的文档对在可比较语料库中所占比例提高了17.6%。(3)基于五个相关性标准对可比较语料库的对齐质量进行了抽样分析。通过与其它可比较语料库构建方法对比,验证了本文中构建方法的有效性。