统计机器翻译汉语分词与解码优化研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:a381697182
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器翻译是使用计算机把一种语言翻译成另外一种语言的一门科学,在全球化、网络化蓬勃发展的今天,不同语言之间的交际需求赋予了机器翻译蓬勃的生命力。本文主要研究汉英统计机器翻译相关的一些问题,这一领域的研究一方面能让不懂中文的人更方便的从中文信息源获取信息,有利于促进我国文化的传播,同时能帮助纠正西方世界对我国的误解,以建立我国良好的国际形象。本文的主要研究内容如下:   1,回顾和总结机器翻译发展的历史和主要理论方法,对当前前沿的机器翻译理论方法进行归纳和展望。机器翻译的发展经历了半个多世纪的曲折,近年来随着计算机软硬件技术的快速发展、网络技术的大面积普及,机器翻译研究已经进入又一个繁荣时期。在机器翻译众多理论方法中,基于统计和机器学习的方法已经占据当前的主导地位,尤其在“汉-英”语对的机器翻译研究中,基于句法的统计机器翻译已经表现出明显的优势,是目前的研究热点。   2,分析不同分词在机器翻译中的影响因素,并在此基础上提出了两种分词优化方法。首先通过在汉英统计机器翻译中对不同分词的翻译对比实验,分析和归纳得到不同的分词影响翻译效果的三个主要因素:分词总词数、词表词数以及分词错误;其次,归纳了其中分词错误三种类型:子串错误、超串错误和交叉错误。根据上述分析论文提出了两种分词优化方法--基于粒度约束的GC-CRF分词技术和基于子串标注的SUB-CRF分词技术,通过实验证明这两种方法单独使用或结合使用均能提高机器翻译效果。   3,使用分词网格表示多种不同的分词,并引入两种新的机器翻译模型特征。本文利用分词网格所蕴含的不同分词,在一定程度上避免汉语输入中的分词错误;基于分词网格引入新的翻译模型特征:汉语分词选择模型和汉语语言模型能为解码器提供更多的判断依据,在一定程度上提高了机器翻译的效果。   4,研究和归纳目前基于句法的统计机器翻译模型的一些共性,设计和实现基于树转录语法的翻译原型系统TTMT;根据树转录规则的特点,设计一种新的树转录规则转换方法--四分化转换方法,将规则转换为四类不同类型,以减少临时句法范畴的生成;分析传统CKY解码算法在处理树转录语法中的不足,提出减少冗余的RR-CKY算法以提高算法效率、减少解码错误。
其他文献
清末社会,为考虑社会下层民众读书看报的问题,白话报刊如雨后春笋般不断涌现。维新时期国人自办的有5种,到1915年时全国大约出版170余种白话报刊。白话报刊的创办,为中国语言文化
与普通抗震结构不同,由于隔震支座会发生竖向变形,基础隔震结构在地震作用下将会发生一定的刚体转动,进而影响上部结构的侧向刚度,而这种刚体转动在剪力墙结构中表现得尤为明
计算机技术和网络通信技术的发展使得声像资料成为现今信息资源传播的重要媒介,知识和信息的声像化存储与传播给网络环境下的数字图书馆带来了新的挑战和问题。如何在网络环境
为验证悬吊煤斗质量调谐阻尼器(TMD)对火电厂结构的减震效果,建立结构有限元模型进行单向和双向地震作用下减震效果对比分析,制作缩尺比例为1:12的结构试验模型,进行三组不同
运动员在高原训练过程中会遇到全方位的应激,尤其在高原缺氧状态下,应激表现会更明显。一方面,人体在高原缺氧环境下训练,承受高原缺氧和运动负荷的双重刺激,会产生强烈的双
在现今全新的经济和技术背景下,一种产品的成功很大程度上依赖于消费者个人社会网络影响力。传统的营销手段对消费者的影响正逐渐被削弱,消费者个人社会网络对其偏好或决策的影
期刊
世界群体大会:“终生体育”。国际大众体育联合会(FISPT):促进大众体育的国际交流。国际工人体育联合会(CSIT):“平等与团结”。维护工人及其家庭,特别是妇女和儿童进行体育
期刊
探究多类型图书馆集群发展理论,力图为其实践提供有力的理论支撑。认为理论框架、多学科性是其内涵理论;公共性理论、资源共享理论、系统论、资源集聚理论、文化自觉论是其基