统计机器翻译重排序和特定领域应用研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:zlzlzl567
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着全球化进程的推进,跨国企业的发展,越来越多的语言进行互相翻译。统计机器翻译具有效率高、成本低的特点,具有广阔的应用前景。但是目前统计机器翻译系统的翻译性能还有待进一步提高。目前,很多工作都提出用重排序的方法提高统计机器翻译的翻译性能。但目前的重排序方法还可以进一步改进。当统计机器翻译系统应用到某个特定领域时,则需要利用有限的领域内数据,有针对性地提高系统在该领域内专有词汇的翻译性能,而且系统的训练方式需要对非专业人员更清晰友好,以降低系统使用成本。故本文工作从三个方面展开。第一,利用重排序提高机器翻译质量。引入卷积神经网络以增强排序学习中实例之间的对比。我们提出使用卷积神经网络进行特征抽取,利用两个实例对应特征之间更多的组合,以更好地对比两个实例,以此提升排序学习的性能,获得更好的翻译性能。我们根据这个想法,设计了一系列排序学习框架,并在通用领域数据上对这些排序框架进行实验。因为我们发现目前建模两个翻译候选对比的方式仅仅利用两个实例对应特征的一种组合,而目前其他排序方法并不能从原子特征的角度对两个实例进行比较。在其他领域数据上验证我们排序框架的通用性。本文提出的配对排序框架适用于其他结构化预测任务,在信息检索和并列结构识别两个任务中的实验表明,我们的框架效果不错并且表现比较稳定。第二,针对商品领域调优系统翻译性能。利用基于短语的统计机器翻译系统翻译商品领域内数据,需要利用相对较少的商品领域的数据进行训练,同时获得比较好的领域内数据的翻译质量。由于少量商品领域内的数据缺乏常用词汇的翻译信息,我们提出加入通用领域数据可以提高常见词汇的翻译性能,添加领域相关数据可以大大提升领域相关数据的翻译性能。考虑到训练效率的问题,需要注意数据的比例。本文还通过实验证明,对商品品牌等多词组成的短语无论分词与否,系统都能正确识别和翻译该类型的术语。第三,利用可视化优化系统训练控制流程,增强系统的可用性。该系统被应用在其他领域时,往往需要利用该领域的数据进行训练,以便获得更好的领域内专有名词的翻译性能。通过可视化整个训练流程,降低非专业人员手动运行脚本和配置训练过程中所需参数的成本,简化了系统训练流程。该可视化系统将训练流程分割成几个大步骤,将每个步骤的具体操作界面显示在网页端。网页端将每个步骤所需要配置参数的可选项显示在下拉框,方便用户选择,并且能自动检测每个步骤系统训练是否正确结束。
其他文献
本文对词义消歧问题进行了研究,以《现代汉语语法信息词典》中的“同形多义词”为研究对象,以《人民日报》基本标注语料库为研究素材,设计并实现一个统计与规则方法相结合的词义
身份认证是信息安全和保密通信的基础,也是整个电子信息交换体系可靠性和可用性的保证。通过身份认证机制可以鉴别网络通信中涉及到的各种身份,保证通信参与各方身份的真实性
本文研究了基于ANSI INCITS 359标准的RBAC构件设计与实现,主要工作有: (1)对2004年最新发布的ANSIINCITS359RBAC标准进行了较为深入的研究,探索了其核心思想; (2)讨论了Wi
日益扩展的网络和飞速发展的网络技术给网络应用提供了巨大的发展空间。在网络应用拓展的同时,其承担的业务越来越多,规模越来越大,结构也越来越复杂,而且呈现出高度的异构性
内存去冗余化一直是计算机高性能领域研究的一个热点,在服务器上特别是云计算中,各类的服务或者虚拟机对内存的需求很高,在传统的虚拟机技术中,每个虚拟机(VM)都需要有一块独
随着数字媒体技术和Internet技术的快速发展,数字资源的版权保护成为一个重要的研究课题。数字水印技术,作为传统加密技术的有效补充,近年来引起人们的高度重视,已成为信息安全领
本文对协同工作环境的建立及其协同能力的实现进行了相应的研究,通过将分布式虚拟现实技术引入到CSCW领域,构建了一个基于VRML和Java的可供用户协同交互的三维可视化协同工作
随着Internet在全世界的普及,特别是Web技术的出现,信息系统尤其是企业的信息系统开始发生了实质性的变化。传统的MIS和OA,新潮的Internet、Extranet和数据仓储,专业化的MRP2和ER
Ad Hoc网络是一种特殊的无线移动网络,具有不同于传统无线移动网络的一些特点。由于Ad Hoc网络移动终端的电池能量有限、网络拓扑结构动态变化、通信使用无线信道、分布式控
现在的商业界处于一个快速连续变化的信息环境中,激烈的竞争使他们希望信息系统能够敏捷灵活的处理市场和组织业务的变更。业务流程总是随着时间发生变化的,经常出现难于预料