引入结构化信息的机器翻译方法研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:pangdunpiwen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的高速发展,人与人之间的跨语言交流也日益频繁,完全依靠人去处理互联网上日益增长的翻译需求显然是不可能的。机器翻译便是解决这一问题的有力手段之一。机器翻译凭借更高的翻译效率和更低的翻译成本,在工业界获得广泛应用,也一直是自然语言处理领域的研究热点。基于对数线性模型的统计机器翻译方法一度将机器翻译的研究推向了新的层次。然而经典的统计机器翻译中短语翻译规则和层次短语翻译规则是在大规模数据中通过统计方法得到的,没有任何语言学信息的指引,使得规则数量众多并且质量参差不齐。同时,由于缺乏显式结构信息的建模,翻译系统在解码时常常无法选择出合适的翻译规则,从而无法得到正确的译文。结构化信息缺失问题同样出现在时下备受关注的神经机器翻译模型中,它通过神经网络实现源语言序列到目标语言序列的映射,源语言端缺乏对结构信息的认知往往导致系统对源语言的理解产生问题,而目标语言端缺乏结构信息的指引会难以处理词与词之间的关系,从而导致错翻、欠翻译和过翻译等问题,进而制约着翻译性能的提升。本文针对机器翻译方法中的结构化信息利用问题展开研究,主要工作如下:1.针对统计机器翻译中的规则庞大且质量不一的问题,本文提出一种基于句法树状态的规则选择模型用以约束翻译规则的使用。同时,本文定义翻译规则的上下文特征抽取方法,用于训练判别式模型以及预测规则的句法树状态概率,最后这一概率将作为对数线性模型的额外特征,用以判别规则在句子中的使用是否合适。中英机器翻译实验的结果表明,本文提出的方法能够有效提高机器翻译系统的性能。2.针对神经机器翻译对结构信息描述能力不足的问题,本文提出基于短语的神经机器翻译,同时在源端和目标端引入短语结构并建模两者之间的对应关系。中英机器翻译实验的结果表明,该方法能显著提高机器翻译的性能。
其他文献
2019年,根据国家统计局发布的数据我国60岁以上老年人口数量达到了24949万人,占总人口数量的17.9%,我国人口老龄化程度加深。目前我国脑卒中患者数量达到7000万人,而且每年脑
无线传感器网络是21世纪跨越多个领域的综合性网络,由众多技术共同支撑。其中的节点定位技术是决定用户终端接收到可靠有效信息的关键技术,直接影响着整个网络的定位精度。目
随着人口老龄化的加剧,由脑卒中引起的上肢运动功能障碍患者的数量大幅增加。目前,利用康复机器人对偏瘫患者进行康复训练已成为国内外研究的热点。然而现有的上肢康复机器人
工程建设向来是一个高风险的行业,在整个项目的生命周期中都会面临风险的巨大挑战。对于投入高、周期长的高速路项目来说,在工程的具体实施过程中,需要综合考虑人员、设备等
随着中国制造2025战略的提出,我国制造业各领域都向着自动化与智能化的方向发展。焊接技术作为工业重要的组成部分之一,智能化焊接对于工业发展有着重要意义。焊缝识别技术作
随着传统能源的枯竭和环境问题的日益严重,人们的注意力更多地集中在新能源的开发和利用上。太阳能与其它可再生能源相比,具有能源储量大、环境效益好、经济性强的优点,因此
本文对上海烟草(集团)公司“八·五”初期开始引进的中速卷包机组和“十·五”初期开始引进的高速卷包机组的代表性机型,从年生产能力、主要原辅料消耗、固定资产折旧、设备
随着民航业快速发展,航班起降架次逐年增加,航班延误对机场运行的扰动日益严重。停机位分配是机场运行的关键环节之一,合理的停机位分配方案可以减少航班延误对机位预分配方
随着社会不断进步以及经济快速发展,城市化进程也在逐渐地加快。城市化是能有效推动城市的社会经济进步和国民经济发展的一个重要因素,是评价一个城市综合竞争力的一个重要指
在物流领域的信息技术不断发展的今天,物流需求不断向多样化、动态化和复杂化的特征变化,与此同时,随着物流资源整合与配置平台的发展,面对海量、多粒度的物流资源表征信息、