基于半监督学习的统计机器翻译研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:JackCF1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的飞速发展所产生的越来越多的双语数据,使得基于统计的机器翻译( SMT)成为了机器翻译领域的主流方法。然而相比已标注数据(双语句对,词对齐结果等),可用于统计机器翻译的未标注数据(单语的句子,未标注对齐的双语句对等)更容易获得,其数量也远远大于已标注的数据。如何利用未标注数据提高统计机器翻译的质量成为一个热门的研究方向。半监督的学习方法,能够利用未标注数据参与模型的训练和优化,提高统计模型的性能,在SMT中的应用也越来越受到重视。本篇博士论文将深入地研究如何将半监督的学习方法(包括自学习、互学习和基于图的学习)应用于统计机器翻译的各个阶段(包括词汇对齐、规则抽取,特征权重训练、翻译重排序和解码),提高统计机器翻译的质量。论文组织如下:  1.针对基于反向转换文法词汇对齐中的1-1对齐约束,本文通过引入短语对和层次短语对提出了增强的反向转换文法,并使用半监督训练方法来训练对数线性模型中的特征值和特征权重,以提高基于反向转换文法的词汇对齐的性能,从而可以抽取更为准确的翻译规则,提高SMT的性能。  2.针对基于句法的SMT(SSMT)的规则抽取中词汇对齐和句法分析不一致的问题,本文提出了基于边界集的目标化自学习方法和基于强制对齐的重训练方法,来利用词对齐信息修正句法分析结果中的错误,从而改善了翻译规则的质量,提高了SSMT的性能。  3.针对特征权重训练中的领域适应问题,本文提出了基于最小贝叶斯风险的自学习和互学习方法。为解决自学习和互学习训练过程中的不稳定现象,本文使用了基于最小贝叶斯风险的句子级系统融合方法来选择合适的翻译候选参与自学习和互学习的训练,显著地提高了目标领域上的翻译性能。  4.针对翻译结果的一致性问题(即相似的输入句子应该得到相似的翻译结果),本文使用了基于图的半监督方法,将SMT看做结构学习问题,并针对该问题提出了结构化的标记传播算法。本文进一步地将结构化标记传播算法获得的一致置信度作为特征,应用于常用的对数线性模型中,将该模型应用于SMT的重排序和解码,提高了SMT的性能。
其他文献
随着互联网的快速发展,网络上的信息量变得极其庞大,而作为Web1.0时代就已经出现的传统应用,网络新闻仍然有着很高的使用率。为了方便用户有效地发现自己想要的信息,需要对新闻报
汉语词汇中歧义词的出现给语言的使用带来了很大的变化和便捷,但同时也给自然语言的理解带来了很大困难。词义消歧的工作就是设法确定歧义词在特定语境下的语义。自然语言处
计算机与网络技术的发展,使图像等多媒体资源在互联网广泛传播,也因此带来了版权保护、内容认证等一系列安全问题。本文以图像为基础,对内容相关水印技术进行研究,提出了若干新型
基于内容的图像检索存在图像原始的底层特征与用户抽象的深层语义之间的“语义鸿沟”,目前缩小“语义鸿沟”的方法还不够理想。随着Web2.0的发展,越来越多的互联网用户在向互联
图像的边缘和轮廓包含图像的重要特征信息,当图像中数据混有噪声的时候,对边缘的检测比较困难,Ridgelet是继小波变换后提出的一种非自适应的高维函数表示方法,对于图像中的直
随着网络技术、通信技术以及小型移动终端设备的不断发展,移动自组网络的应用越来越广泛。移动自组网络是由若干个带有无线收发信装置的移动节点组成的一个无线移动通信网络,它
随着多媒体的广泛应用,视频的内容越来越丰富,基于视频的研究也日益成为热点。作为视频处理基础问题之一的切割技术,为视频的其他处理和应用提供分析的依据,也越来越重要。以往切
随着计算机和网络技术的飞速发展,分布式虚拟环境技术的研究也逐渐升温。分布式虚拟环境技术就是把虚拟环境和网络技术结合在一起,使得地球上任何一个角落的用户,都能够通过网络
随着人工智能领域的不断发展,人们的生活逐步走向智能化,其中图像识别技术在人工智能领域中占据着重要地位。随着人们生活水平的提高、食品种类的丰富,如何了解自身的膳食结
随着互联网技术的不断发展与成熟,云计算技术已经成为新一轮IT信息技术革命浪潮中研究的热点。云计算已经不仅仅走进了我们的生活,而且还开始扮演着重要的角色。在过去的几年中