论文部分内容阅读
机器翻译在不同语种之间的交流中起着非常重要的作用,一直是自然语言处理研究的热点和难点。越南是中国西南的重要邻国之一,研究汉语-越南语统计机器翻译对汉越双语理解、舆情分析、信息检索、文化交流、经济贸易等具有重要的支撑作用。目前,汉-越统计机器翻译研究的工作主要集中在汉越双语资源库建设、汉越词对齐研究等方面,翻译研究尚处于起步阶段。越南语和汉语在语言特征上的差异性很大,最显著的不同点在于,越南语中修饰语(定语和状语)和被修饰语的位置与汉语成镜像关系,即越南语中的形容词位于其修饰的名词之后,副词位于其修饰的形容词和动词之后,而汉语中的正好相反。因此,越南语和汉语在语序上有明显不同,而且这些不同点具有一定的规律:越南语中修饰语与被修饰语的位置与汉语中相反;修饰语与被修饰语连续出现。基于以上分析,从基于短语的统计机器翻译模型和融合语言特性的短语翻译模型两个方面来研究汉-越机器翻译。(1)基于短语的汉-越统计机器翻译方法。首先,分别使用斯坦福中文分词工具和实验室自主开发的越南语分词工具对汉语和越南语双语平行句对进行分词,使用GIZA++工具获取双语平行句对的词对齐结果。然后通过汉-越短语对抽取得到短语翻译概率表,并用短语翻译概率表训练翻译模型。使用CKY解码器进行解码,解码过程中使用词汇化调序模型(MSD)进行短语重排序。在实验中,观察基于短语的汉-越统计机器翻译系统在不同文法(N-gram)中的翻译性能。实验结果表明,翻译系统在二元文法和三元文法具有较好的性能。(2)融合语言特性的汉-越短语统计机器翻译方法。针对越南语典型的修饰语后置的特点,提出一种融合语言后置特征函数的汉语-越南语统计机器翻译方法。该方法首先分析汉语与越南语语法不同,提取越南语在定语位置、状语位置及修饰词词语顺序上与汉语的差异,然后利用这些差异定义词法差异的调序块。在解码过程中,通过改进的解码算法将汉语中的调序块映射到越南语中,记录解码产生的N-best候选翻译及其相应的得分P,再用语言后置特性调序算法对N-best候选翻译中的调序块进行优化调序,并且用无条件最大似然概率分布估计调序后的得分D。综合考虑得分P和得分D选取最终的目标句子。实验以融合词汇化调序模型(MSD)的汉-越短语统计翻译方法作为对比实验。实验结果表明,融合语言后置特性的汉语-越南语短语的机器翻译方法能够有效的提高翻译的准确率。(3)融合语言特性的汉-越于短语统计机器翻译原型系统。在基于短语汉-越统计机器翻译系统的,将汉语和越南语的语言特性作为特征融入翻译的解码过程中,使用现有的一些基础开源工具(分词工具、词对齐工具等),以Java web的开发方式,构建了融合语言特性的汉-越于短语统计机器翻译原型系统。