基于短语的藏英统计机器翻译关键技术研究

来源 :西藏大学 | 被引量 : 0次 | 上传用户:sdhok
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器翻译(Machine Translation,MT)是利用机器将一种自然语言转换为另一种自然语言的过程。藏英机器翻译相关技术的研究,对于继承和弘扬民族优秀文化,增进文化交流,寻求思想的沟通;服务国家一带一路战略;推动我国藏族地区社会、经济、教育和文化事业发展等有着十分重要的现实意义。机器翻译是计算语言学(Computational Linguistics)的一个分支,涉及计算机技术、数学、认知科学、语言学、信息论等多门学科的交叉和联系,是人工智能的终极目标之一。因此,基于短语的藏英统计机器翻译相关技术的研究能够促进藏语计算语言学的实质性发展,具有非常重要的科学研究价值和实际应用价值。在20世纪90年代,Waever思想的基础上,IBM公司的Peter Brown等人提出了统计机器翻译的数学模型,将机器翻译问题看成一个噪声信道问题。采用这种数学模型的机器翻译性能远远超越了传统的基于规则的机器翻译,从此基于统计的机器翻译成了机器翻译研究的热点,并提出了基于词的、基于短语的和基于句法的翻译模型等。在这些统计机器翻译模型中,基于短语的统计机器翻译模型以模型简单、鲁棒性高和翻译性能良好而占据主流地位,成为目前研究与应用的重点。本文的研究工作建立在基于短语的统计机器翻译模型基础上,对短语翻译模型的词对齐、短语抽取、调序模型、参数训练及解码等各项关键技术问题进行了初步的探索,并以西藏大学信息科学技术学院的基于短语的统计机器翻译系统作为实验平台,力图通过改善短语翻译模型的关键问题来提高基于短语的藏英统计机器翻译性能。具体而言,本文的研究内容主要包括以下几个方面:(1)词对齐方面:本文重点研究了IBM模型1-5的词对齐技术,并阐述了词对齐领域的相关研究工作,最后采用一种基于IBM模型4的判别式词对齐方法解决了藏英单向词对齐的不足。(2)短语对抽取方面:本文重点介绍了Och的连续短语对抽取技术,并阐述了短语对抽取领域的相关研究工作。根据藏语言本身的特点,提出一种改进的短语对抽取算法并在藏英词对齐语料上抽取了更多的短语对,但同时也抽取到了很多错误的短语对。为此,本文通过一种有效的过滤方法对藏英短语翻译概率表进行了过滤,过滤掉了短语翻译概率表中大部分错误的短语对,以确保藏英短语翻译模型的精确性。(3)调序模型方面:藏英两种语言的语序差异相对复杂。本文针对这个问题,深入研究了现代藏语短语结构,整理和归纳了29种现代藏语名词性短语、动词性短语和形容词性短语等三种主要的短语结构规则。在此基础上,分析和对比了藏英句法结构,总结了14种比较常见的藏英语序差异现象,并提出了一种基于句法信息的藏语句子重排序模型,以提高藏英机器翻译的性能。(4)模型参数训练方面:本文在对数线性模型的框架下重点研究了最小错误率训练方法的解码过程,实验中共用到了16种翻译特征,通过20次迭代训练,获得最优参数。
其他文献
磷和钾是作用于作物整个生育期的关键元素,参与作物体内多种化合物的合成和生理代谢过程。由于土壤吸附、沉淀、生物固定、淋失等作用,磷肥和钾肥施入土壤后当季利用率只有5%20%和40%45%,造成了资源浪费和环境污染,因此提高磷钾肥特别是磷肥有效性具有重要意义。合理施用新型高效磷钾肥是提高利用率和作物增产提质的重要措施。腐殖酸、沸石粉、膨润土、海泡石、硅藻土等活化剂能提高磷钾肥的有效性,降低肥料养分在土
目前,许多厂家用银杏提取物制造各种药物和保健品,其质量主要取决于黄酮和萜内脂含量的高低,尤其取决于银杏内脂含量的多少.
演奏一首音乐作品,不单单只是平时的刻苦训练仔细揣摩曲子的情感意旨,更需要具有一种良好的理想的演奏状态来保持演奏的稳定进行和发挥;这往往是我们平时练习与演出实践时所
2015年12月2日,红山大讲堂本年度第十二场专题报告会在我校大剧院举行。本场报告会也是自然科学板块第二讲。清华大学物理系高能物理与核物理研究所所长、量子信息与测量教育
1引言众所周知,生料中掺入矿化剂,可以改善生料的易烧性,提高熟料质量和降低能耗。值得注意的是有些立窑水泥厂,掺加矿化剂或复合矿化剂后没有达到预期效果。出现凝结时间不正常,而
目的:观察不同年龄段的C57BL/6J小鼠(3周龄幼年鼠、2月龄青年鼠、6月龄老年鼠)经110dB SPL强烈白噪声暴露2小时后的听力学、内外毛细胞区域的带状突触、氧化应激损伤产物及耳
我国居民的日常生活已经跟"卡"息息相关,现如今楼盘大多都安装了门禁系统,用封闭式管理来维护治安秩序。本文重点介绍了RFID门禁卡身份认证技术,门禁卡的工作原理,因门禁卡RF
目的:评估肩关节镜下治疗冈上肌钙化性肌腱炎疗效。方法及材料:回顾性分析我院从2010年9月至2014年3月,19例患者接受肩关节镜治疗,平均年龄46.3±5.6岁以UCLA评估效果,平均随
为了探讨大学生抑郁感与人格之间的关系,以及其他因素对大学生抑郁感的影响,本研究运用SDS抑郁自评量表以及大五人格问卷对147名在校大学生进行问卷调查,采用SPSS18.0统计软