论文部分内容阅读
随着中老两国关系的扩大和深入,加强汉语-老挝语之间的学术研究具有十分重要的现实意义。在自然语言处理任务中,平行语料库为统计机器翻译的模型提供了必不可少的实验数据,而平行句对的获取是构建平行语料库的关键部分。互译的双语文本在篇章、段落上几乎是彼此对应的,因此对齐的重点就集中在句子对齐和词对齐上。本文主要依据老-汉双语句子相似度值进行句对齐,借助二部图的最佳匹配获取严格意义上的1:1形式、相似度较高的老-汉双语平行句对。主要研究成果如下:(1)基于互译特征词对匹配的老-汉双语句子相似度计算由于本实验室整理得到的平行语料和互联网上得到的双语文本几乎都是段落和篇章对齐的,此时就需要将语料整理成需要的句对齐格式。针对老-汉双语语料库中的对齐块(段落对齐或篇章对齐),提出了一种基于互译特征词对匹配,并结合构建的老-汉双语相似词典来计算句子相似度的方法,用来最终识别相似度较高的老-汉双语平行句对。每个词对都有对齐的先验概率,通过计算互译特征词对的匹配值来评价最终句对的相似度,这样对齐过程中便可以依据相似度来进行,将相似度较高的、符合一定条件的老挝语和汉语句子进行对齐,精简句对齐的流程。实验证明,此方法在一定程度上提高了老-汉双语句子相似度计算的准确率。(2)融合多特征的老-汉双语句子匹配值计算人名、地名作为未登录词被视为老-汉双语文本对齐的重要特征,但却无法用老-汉双语词典直接进行互译匹配,导致翻译时存在混乱、随意和不统一等问题。本文通过大量的问卷调查并经人工鉴定后,提取出汉语-老挝语人名、地名特征,总结出人名、地名音译规则,构建了一定规模的汉语-老挝语人名地名词典,经验证适用于大部分老-汉双语人名、地名之间的互译,翻译的质量较好、拓展性较强。同时提取老-汉双语数字特征,与人名、地名词典条目融合后,计算出汉语-老挝语人地名与数字特征匹配值。借助双语文本长度标准化变量?来较准确地预估老-汉双语句子长度特征匹配值。此时将第一部分的互译特征词对匹配值、此部分人地名与数字特征、句子长度匹配值进行多特征融合,分配各特征值权重,最终计算出老-汉双语的句子相似度值。实验证明,进行多特征融合后又一次提高了老-汉双语句子相似度计算的准确率。(3)基于图匹配的老-汉双语平行句对抽取方法研究本文抽取的平行句对是严格意义上的1:1形式的句珠(即平行句对),若仅用遍历,会存在两个或多个老挝语句子对应同一个汉语句子的情况,且不能保证权和最大、匹配最好。经过多特征融合后计算出老-汉双语句子的相似度值,此时可以将相似度值作为连边权值,多个老挝语句子和汉语句子作为图顶点,借助二部图将老-汉双语句子对齐转化为寻求二部图的最佳匹配问题,得到严格的1:1句珠。实验结果表明,相比于SVM下的多特征融合和其他学者的方法,本方法在一定程度上提高了老-汉双语平行句对抽取的准确率。本文首先计算互译特征词对的匹配值、其次融合多特征计算出老-汉双语句子相似度值,最后利用二部图最佳匹配算法得到严格意义上1:1形式的老-汉双语平行句对,实验表明,本文方法一定程度上提高了平行句对抽取的准确率。