论文部分内容阅读
双语平行语料是进行机器翻译研究不可缺少的资源,而句子对齐是双语语料处理的第一步。本文在深入研究了中英文各自特点的基础上,分别使用基于句子长度和基于词汇/词典信息等多种方法对中英文文本进行了对齐,并讨论了影响对齐的各种因素以及对齐的后处理步骤。另外,本文对构建大规模的双语语料库过程中所面临的问题也进行了详细的讨论。
具体的说,本文的工作主要包含以下内容:
1)统计估算了中英文句子长度的相关参数,应用基于句子长度的方法对中英文文本进行了对齐。
2)充分利用双语文本中短语、数字、缩写词、标点符号等丰富的词汇信息,结合句对长度信息,提出了一种基于词汇、长度等混合信息的对齐方法,并利用该方法对中英文文本进行了对齐。
3)运用信息检索领域中TF-IDF权重思想,在充分利用词汇信息的基础上考虑词频信息,以此来估算句对之间的互译评分,并借助于一部英汉双语词典对中英文文本进行了对齐。
4)针对中英文双语文本的多样性,比较了上述几个算法在对噪音不同以及段落对齐与否的双语文本上的对齐效果;并分析了双语词典大小对于对齐效果的影响。
5)讨论了中英文双语对齐的后处理步骤,如对齐结果的选择、双语语料库的编码规范等;并介绍了一个大规模汉英双语平行语料库的构建工作,包括其总体规划和流程细节等。