论文部分内容阅读
目前的统计机器翻译的发展,由于其对大规模平行语料库的依赖,还主要集中在平行语料库相对容易获得的英法、英汉等语言之间。由于获取途径的限制,即使像英语,汉语,法语这些常用的官方语言间的对照语料,得到的平行语料库就算是有一定的规模,也多半都是很不平衡的,主要都是政府性或新闻性的题材,其他专业领域的平行语料库则少之又少,至于其他一些国际上不常用的语言间的平行语料库,即使是这种非平衡的资源也很难获得,对于目前尚不成熟的中越两国语言的平行语料,此种问题则更为突出。本文致力于构建一个基于Web的大规模中越双语平行语料库自动获取系统。取得主要成果有以下几方面:
1.提出基于图片链接信息对齐URL无命名规律的中越双语平行网页的算法
目前主流的中越双语平行网站的URL命名无规律性同时又含有大量附图链接并且链接所指向的网页含有丰富的中越双语平行语料资源这一特性,通过提取以上双语平行网页以及目前主流网站的附图链接的网页的HTML源代码并对其附图链接的代码部分进行详尽的结构比较、分析,发现了所有网站在附图链接源代码上的一个统一的固定结构,并成功实现抽取这一固定结构及其中的图片链接信息和对应候选平行网页URL的算法,从而成功实现利用双语平行网页的图片链接信息相同的这一特征来对齐中越双语候选平行网页的方法,从而可以找出尽可能多可信的中越候选网页对。
2.对基于句子长度、词汇的对齐特征抽取进行对应中越双语的适应性改进
基于中越两国语言的渊源关系以及在句子长度、词汇互译上的相似之处,本文在现有中越双语平行语料库的基础上对中越双语平行句对的句子长度进行了科学统计,总结出了长度比例、概率分布、拒绝域的重要句子对齐特征;基于现有尚不成熟完善的汉越双语词典提出了引入《哈工大信息检索研究室同义词词林扩展版》进行越汉词典的词条扩展、合并本来不应被切分开的词语、互译词汇查找的模糊匹配,三种处理策略,显著提高了中越双语平行句对的词汇匹配率,同时,通过对以上处理策略的数据收集、统计,为多语种项目日后的汉越词典的完善、翻译概率的训练提供了重要数据资料支持以及行之有效的途径和方法。