论文部分内容阅读
随着全球化进程的推进,跨国企业的发展,越来越多的语言进行互相翻译。统计机器翻译具有效率高、成本低的特点,具有广阔的应用前景。但是目前统计机器翻译系统的翻译性能还有待进一步提高。目前,很多工作都提出用重排序的方法提高统计机器翻译的翻译性能。但目前的重排序方法还可以进一步改进。当统计机器翻译系统应用到某个特定领域时,则需要利用有限的领域内数据,有针对性地提高系统在该领域内专有词汇的翻译性能,而且系统的训练方式需要对非专业人员更清晰友好,以降低系统使用成本。故本文工作从三个方面展开。第一,利用重排序提高机器翻译质量。引入卷积神经网络以增强排序学习中实例之间的对比。我们提出使用卷积神经网络进行特征抽取,利用两个实例对应特征之间更多的组合,以更好地对比两个实例,以此提升排序学习的性能,获得更好的翻译性能。我们根据这个想法,设计了一系列排序学习框架,并在通用领域数据上对这些排序框架进行实验。因为我们发现目前建模两个翻译候选对比的方式仅仅利用两个实例对应特征的一种组合,而目前其他排序方法并不能从原子特征的角度对两个实例进行比较。在其他领域数据上验证我们排序框架的通用性。本文提出的配对排序框架适用于其他结构化预测任务,在信息检索和并列结构识别两个任务中的实验表明,我们的框架效果不错并且表现比较稳定。第二,针对商品领域调优系统翻译性能。利用基于短语的统计机器翻译系统翻译商品领域内数据,需要利用相对较少的商品领域的数据进行训练,同时获得比较好的领域内数据的翻译质量。由于少量商品领域内的数据缺乏常用词汇的翻译信息,我们提出加入通用领域数据可以提高常见词汇的翻译性能,添加领域相关数据可以大大提升领域相关数据的翻译性能。考虑到训练效率的问题,需要注意数据的比例。本文还通过实验证明,对商品品牌等多词组成的短语无论分词与否,系统都能正确识别和翻译该类型的术语。第三,利用可视化优化系统训练控制流程,增强系统的可用性。该系统被应用在其他领域时,往往需要利用该领域的数据进行训练,以便获得更好的领域内专有名词的翻译性能。通过可视化整个训练流程,降低非专业人员手动运行脚本和配置训练过程中所需参数的成本,简化了系统训练流程。该可视化系统将训练流程分割成几个大步骤,将每个步骤的具体操作界面显示在网页端。网页端将每个步骤所需要配置参数的可选项显示在下拉框,方便用户选择,并且能自动检测每个步骤系统训练是否正确结束。