基于复述的机器翻译系统融合方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:gaoerwj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器翻译技术是一种能自动将一种语言翻译成另外一种语言的自然语言处理技术。近些年来,随着机器翻译技术的日趋成熟,涌现出各种不同方法来解决机器翻译问题。为了充分利用各种翻译系统,扬长避短,研究者将成功应用于多个领域的系统融合技术引入机器翻译方法中,并取得了较好的成果。在最流行的统计机器翻译系统框架下,训练翻译模型往往需要大规模的训练语料。然而在一些小语种的翻译任务上,并不能获得很多的平行语料训练翻译模型。为了在不能得到多个翻译系统的融合任务上提升系统融合技术的融合质量,本文提出通过对翻译假设进行同义复述,引入更多有用信息到翻译假设集中,供系统融合选择,从而提升融合质量。为了利用复述技术产生翻译假设的复述结果,融合更多有用信息到翻译假设候选集中,从而提升系统融合性能,本研究主要从以下几个方面研究基于复述的机器翻译融合技术:(1)基于词级别复述的机器翻译系统融合方法。该方法主要是利用翻译假设之间的对齐信息,找出最有可能被复述的词,作为复述点,通过引入大规模的单语语料利用此的词向量表示产生与复述点语义一致的词,生成原翻译假设候选集的复述句子。通过这种方法,以词为基本粒度,对翻译假设集信息进行拓展,提升了最终的融合质量。(2)基于短语级别复述的机器翻译系统融合方法。该方法以短语为基本粒度,产生与翻译假设集语义一致的复述结果。通过利用大规模平行语料抽取短语复述资源;利用该复述资源,通过对数线性模型,利用语言模型,复数概率等特征对复述句子进行打分,使用柱状搜索算法对翻译假设进行解码,产生具有最大概率的复述结果。利用该方法产生短语级别的复述结果,给后面的系统融合步骤提供更多的选择。(3)基于句子级别复述的机器翻译系统融合方法。这部分通过近些年来较为流行的神经网络模型,利用RNN Encoder-Decoder结构,训练一个以翻译假设为输入,参考译文为输出的神经网络模型,以句子为基本单位对翻译假设进行复述,产生相比于机器翻译结果具有更高质量的语义一致的复述句子。该模型通过将输入句子转换为一个向量表示并对齐进行解码,产生了输入句子的另外一种语义一致的表达方式。通过句子级复述信息的引入,提升了机器翻译系统融合的质量。实验结果表明,通过复述技术的引入,补充了更多高质量的信息到翻译假设候选集中,给融合系统更多的选择,提升了机器翻译系统融合的质量。复述主要通过利用单语语料,往往并不需要大规模的双语平行语料。在一定程度上,该缓解了缺少机器翻译系统造成的系统融合性能较低的问题。
其他文献
多传感器多目标跟踪技术是围绕着多传感器目标跟踪和多目标跟踪两方面的实现展开的。多传感器目标跟踪是数据融合技术在目标跟踪领域的应用范例,它将多个传感器的信息有机合
实时数据库系统(RTDBS)是实时系统和数据库技术的有机结合,当前,实时数据库系统广泛应用于军事、电信、电力、航空、工业控制、证券交易等领域,而这些应用领域大部分都是分布
随着Internet和宽带网络技术的日益发展,传统的以文字和图片为主的服务已不能满足用户的需要,具有视频和音频的多媒体服务成为主流。近几年嵌入式网络数字视频监控系统正在得
需求工程是随着计算机的发展而发展的,在计算机发展的初期,需求分析很少受到重视,后来软件开发引入了生命周期的概念,需求分析成为其第一阶段。随着软件系统规模的扩大,人们逐渐认
说话人识别技术目前已经成为身份认证及人工智能领域研究的一个热点,解决噪声环境下的说话人识别问题具有重要的理论价值和深远的实用意义。支持向量机是建立在统计学习理论的
随着互联网中服务数量的增加,越来越多的人们选择通过互联网满足生活中的需求。服务网络是解决这种大规模个性化定制的有效方法,降低了传统服务组合的搜索代价,也提升了服务
入侵检测系统作为一种能够自动、实时地保障网络信息安全的动态安全设备,构成对防火墙一类的静态安全设备的必要补充,已经越来越受到人们的重视,而分布式入侵检测系统更是随着网
机器翻译是应用计算机将一种源自然语言自动地翻译成另一种目标自然语言的技术。随着时代的迅速发展,人们为了更容易地互相交流和获取信息,对于机器翻译的需求也在逐渐加强。
目前IPTV系统主要是利用对等网络来进行视频传输,提供实时直播业务。这些系统往往对所有用户都提供相同质量的媒体服务。但是网络带宽的不确定性和终端设备性能指标的差异性都
三维地形仿真技术是虚拟现实技术中最重要的一个技术领域,虚拟现实中的建模是目前计算机图形学中最热门的方向之一,并在各行各业中发挥着重要的作用,如建筑、军事、娱乐等。本文