基于混淆网络的机器翻译系统融合技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:gl112238
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着经济全球化的不断发展,跨语言交流的需求不断增长,使用机器翻译实现自然语言的自动翻译有很大的需求。近年来机器翻译技术不断进步,能够满足基本的翻译的需求,但是用户对翻译质量的要求不断提高,系统融合技术作为有效的提升机器翻译质量的方法在评测和实践中被广泛使用。围绕着系统融合技术,本文的研究主要涉及以下几个方面:(1)对系统融合性能的影响因素进行了分析。使用系统融合的远景得分作为评价指标,对参与融合的系统个数和融合候选来源对系统融合性能的影响进行分析。研究参与融合的系统数量对系统融合远景得分的影响时,本文给出在不同个数的系统参与融合的情况下所对应的系统融合远景得分。研究融合候选的来源对系统融合性能的影响时,给出在融合候选来自多个源语言和单个源语言的情况下,系统融合远景得分随系统个数变化的曲线,给出多源和单源远景得分变化曲线的对比。最后分析实际的融合方法对系统融合性能的影响,比较了句子级别和词汇级别系统融合方法在特定数据上的融合结果,实验结果表明词汇级别融合方法优于句子级别融合方法。(2)研究了基于机器学习的融合候选排序问题。参与系统融合的多个系统之间存在较大的翻译质量差别,使用全部的融合候选参与系统融合所获得的融合结果并不是最优的,需要从众多的融合候选中选择翻译质量较高的融合候选。本文使用基于pair-wise的排序方法实现融合候选质量排序,这种方法将列表排序问题分解成大量的二分类问题,从而可以尝试多种现有的分类算法。在使用融合候选排序的系统融合方法中,首先需要从训练集中训练统计排序模型,接着将统计模型应用到测试集中每个句子并产生融合候选排序结果,然后使用排名较高的融合候选参与后续的系统融合。本文将融合候选排序应用到句子级别和词汇级别系统融合方法中,根据实验结果可以发现,使用融合候选排序并使用高质量的融合候选参与融合对句子级别和词汇级别融合方法有显著的性能提升。(3)向现有的系统融合解码使用的对数线性模型中添加局部特征。系统融合解码时使用对数线性模型给搜索解码空间,现有的对数线性模型中包括语言模型得分、句子长度、ngram-count以及词置信度四个常用的特征。语言模型得分是用从通用语料训练出的语言模型对解码结果进行打分,用于衡量融合结果的流利度。句子长度用于控制解码结果在合理的限度内。Ngram-count作为局部信息,对系统融合性能提升有着显著的作用,因此本文尝试加入更多的局部特征以提升系统融合的性能。本文尝试在对数线性模型中加入新的局部特征,包括局部语言模型得分、skip-gram匹配个数和词后验概率三个特征。本文给出在现有特征的基础上分别添加三个特征后对应的融合结果得分,并据此分析每一个特征的有效性。同时我们也给出了不同特征之间的组合对系统融合性能的影响。对于系统融合,本文首先对系统融合性能影响因素进行实证分析,然后通过挑选高质量的部分融合候选提升系统融合的性能。最后给出局部特征对系统融合性能的影响。
其他文献
交互设计是计算机技术的重要组成部分,是研究用户在使用计算机等系统时行为的设计。目前交互式系统如计算机、平板电脑、智能手机等,已经在人们的生活中被普遍地使用,所形成的新
随着Web技术的发展完善和用户需求的增加,基于Web技术开发的软件数量日趋增多,结构也日趋复杂,在给用户带来便利的同时也使软件在运行过程中的维护难度变得越来越大,未知的遗留在
随着高等教育事业在我国的快速发展,高校的固定资产规模不断扩充,管理难度也更大。建立以信息技术、计算机技术和互联网技术支持的现代资产管理系统,实施资产管理信息化,有利
在服务执行过程中,由于服务系统内外部环境面临的各种不确定性事件,导致服务可能无法按计划执行,或者无法满足用户的价值期望。在软件服务上,体现在客户端程序或服务端程序出现了
这几年来,信息科技不断发展和进步,计算机网络不断普及和推广,同时广大网民也面临着严重的网络安全问题,各种网络非法入侵活动F]益猖狂。虽然当前计算机网络采取了诸多防范技
随着信息和通信技术的迅速发展,无线网络在人们生活中的地位日益重要。未来网络发展的必然趋势就是网络与网络之间能够进行互联互通,同时应用趋于移动及普适。目前,网络表现出越
互联网科技的飞速前进,社会网络已经与每个人密不可分,社会网络中包含大量个人或组织的相关信息,社会网络分析者和数据挖掘者需要分享这些信息以获得对各个领域有用的知识。社会
近年来,随着车载设备、移动网络的高速发展,公民生活水平的不断提高,人们对车载播放设备的需求呼之欲出。本文选择了Android系统作为平台,设计研发了一套基于Android的车载多
随着多核处理器的广泛应用,内核之间有效同步问题成为并行编程的一个难题。传统的锁同步不能满足多线程编程的要求,事务存储作为一种共享资源同步的新模型被提出。因其具有较强
随着网络上信息量的飞速增加,怎样从巨大的信息宝库中有效地查找到符合用户需求的信息逐渐成为人们关注的焦点。在信息检索领域中,查询扩展是解决词语不匹配问题并提高检索效率