论文部分内容阅读
于20世纪90年代兴起的统计的机器翻译技术(SMT),是一种基于统计的机器翻译模型。它能够从双语语料库自动的提取翻译规则而不需要人工的干预,并利用这些自动抽取的翻译知识解决实际的翻译需求。随着基于统计的机器翻译模型逐渐完善,构建一个相对成熟的机器翻译平台也变得越来越简单。但是一个成熟的机器翻译模型需要一个平行质量相对优异的语言库作为支撑。如果通过人工构建的方法去构建一个大型语料库则需要耗费大量的人力物力。特别是对于中国的少数民族语言而言,中国共有56个民族,拥有超过80种语言,约30种文字系统。不同语言之间,自动处理水平各不相同,这导致了不同少数民族语言使用者获取以英语和汉语等大语种所记录信息的能力也极其不同。而我们认为长期信息交换的不对称,是造成不同地域文化经济上的差异的重要因素之一。那么是否可以用计算机自动处理的方式,缓解甚至是消除这种信息交换的不对称,是摆在广大学者面前并亟待解决的问题之一。因此本文将自动从网络上获取平行语料,对平行语料进行处理形成可以构建出优秀翻译模型这两点出发进行研究。本文的具体研究内容及研究成果如下:(1)本文通过对当前网络上少数民族语言存在分布进行分析,得出少数民族语言网络分布的特征,通过对特征进行分析,结合特征情况设计并实现针对网络少数民族语言的网络爬虫。(2)本文通过对过去的词典抽取方法进行分析,总结过去研究中词典抽取的优缺点,结合最近研究,使用标签传播算法将一维的词典抽取方法拓展为基于图的二维标签传播词典抽取方法。并实现了相应的词典抽取工具。(3)本文通过对平行句对特征观察,结合过去的研究成果设计了一个基于句子级别和特征词的双语平行句对质量分析句对,并实现了相应的平行句对质量分析工具,将其作为机器翻译的第一步。(4)本文结合translate hub、枢轴语翻译方法与本文前几章节工作,设计并实现了基于汉语的英语—维吾尔语演示平台。