基于短语的统计机器翻译解码优化技术研究

来源 :东北大学 | 被引量 : 1次 | 上传用户:eacy_tang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器翻译是自然语言处理领域的一个重要分支,它是指借助计算机自动地把一种自然语言翻译成另一种自然语言的过程。基于短语的统计机器翻译模型是应用最广泛的统计机器翻译模型,它具有优异的翻译性能和较高的鲁棒性,是目前统计机器翻译的研究热点。解码器是基于短语的统计机器翻译系统中最为核心的模块,翻译的具体过程就是通过解码器完成的。解码器的设计与实现直接影响翻译系统的翻译性能和解码速度。在解码的过程中,由于只能看到局部翻译假设,根据局部翻译假设的得分进行剪枝就很有可能造成搜索错误,即把未来可能更好的翻译假设剪掉。本文研究的主要内容是对基于短语的统计机器翻译系统中的解码进行优化,目的是减少解码的搜索错误,提高翻译系统的翻译性能。具体分为以下两个方面:(1)解码算法优化:对于栈解码算法,本文使用调序距离限制和标点符号限制改进了原始栈解码算法的解码速度和翻译性能。同时,本文提出分组剪枝策略,使得更可比的翻译假设分到同一个组中,然后对各个假设分组分别进行剪枝。根据各个假设分组在高质量候选集合中的分布,设置相应假设分组将要保留的翻译假设个数。(2)动态区分性翻译模型:本文提出动态区分性翻译模型,目的是利用更多的上下文信息,动态地评价短语对之间翻译的可能性,从而使得翻译系统选择更适合上下文信息的正确翻译片段。动态区分性翻译模型的核心是利用双语句对间的词对齐信息产生大量区分性特征,同时利用翻译解码过程中产生的错误进行正负例区分性学习。本文使用神经网络训练动态区分性翻译模型。在大规模数据上的实验结果显示,本文所提出的解码优化技术,可以在一定程度上减少解码的搜索错误,提高了基于短语的统计机器翻译系统的翻译性能。
其他文献
目的:近些年,随着大家对心脏再同步化治疗(Cardiac resynchronization therapy,CRT)的认知日益深入和对生理性起搏的认可,适应性左室起搏在慢性充血性心力衰竭(CHF)的CRT治疗
目的:通过高氧化程度低密度脂蛋白(High ox-LDL)诱导人冠状动脉内皮细胞(HCAECs)的损伤,探讨羟基红花黄色素A(hydroxysafflor yellow A,HSYA)对损伤HCAECs的保护作用,及相关
唐文治是中国近现代著名的精通理学、经学、训诂学、文章学的国学大家,是继承传统教育并向现代教育开拓的承前启后的教育家。唐文治以“正人心,救民命”为宗旨,在近现代特殊
社区矫正制度作为一种新型刑罚执行制度,自2003年试点工作开始后,逐渐在我国全面推广。在社区矫正的诸多制度中,社区矫正终止制度是最具有执法特质的制度,社区矫正的终止也是
试验设计与分析是数理统计学中的重要分支之一,被广泛应用于各个领域,包括工业、农业、医学、物理、天文等。在实际中,对于一个过程或系统的研究一般集中在响应和因子之间的
目的:乳腺癌为世界范围内女性最高发的恶性肿瘤,其发病率在中国呈逐年升高的趋势。手术的创伤、治疗引起的各种身体不适副作用、对死亡的恐惧、肿瘤的复发转移等等,都易使患者对生活产生悲观情绪,引发精神疾病,也被称之为创伤后应激障碍(post-traumatic stress disorder,PTSD),影响患者的生存和生活质量。但是大多数患者的PTSD都未被及时治疗。目前西医针对PTSD的治疗主要是一些
本文是一篇翻译项目报告。翻译项目原文《全职爸爸:一种新型男性身份?》(?Père au foyer:une nouvelle entrée au répertoire du masculin??)选自杂志Enfances Familles G
韩国社会对中文的学习和应用需求与日俱增,无论是教育体系内,还是市场和企业,都在寻求更好的中文学习方式,以提高汉语学习者的学习效率和效果,尽快满足社会的需求。建立“中
本文的研究对象主要是国际移民中墨西哥移民在中国上海的移民情况。中国改革开放之后的十多年间,上海获得了极大关注,从上世纪70年代到80年代初,上海在中国的经济发展以及中
公司信息服务电子化是指通过计算机及网络技术的方式来进行公司日常事务管理。公司信息服务电子化是随着网络信息技术的普及而出现的一种新型的公司事务管理方式。随着互联网