基于聚类的统计机器翻译领域自适应研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:justmxx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在统计机器翻译中,领域问题对翻译系统的性能具有很大影响,当训练语料与测试语料来自同一领域时,翻译效果比较好,反之则翻译性能会下降。随着互联网的发展,用于统计机器翻译的双语平行语料越来越多的来自于网络,这些数据一个重要的特点是领域混杂,没有明确的领域边界。本文将探讨此种条件下,如何提高翻译系统的领域自适应能力。本文首先探讨了双语平行语料的主题挖掘问题,提出了两种融合双语语言信息的主题模型:双语LDA和projected-LDA。每得到一个主题都被视为一个领域,这样,为平行语料库中每个平行句对都获得属于不同领域的概率信息,达到软聚类的目的。本文接着研究了自适应词对齐的技术,在传统的词对齐模型基础上,融入领域信息,得到领域相关的词对齐模型,然后在此基础上搭建领域相关的翻译模型,结果表明,自适应的词对齐模型能一定程度上改善词对齐结果,提高翻译性能。在获得不同领域的翻译模型后,给定待翻译的语句,本文探讨了多翻译模型下的解码策略,根据待翻译语句中的主题分布,选择最相似的翻译模型进行解码。实验证明,该策略能够有效提高系统的翻译系统的性能,最终完成本文提出的任务。
其他文献
无线传感器网络(Wireless Sensor Networks,WSNs)的快速发展得益于微电子技术、无线网络技术及传感技术等先进技术的不断进步。无线传感器网络由部署在监测区域内大量的传感器节
梯形图(LD)拥有直观形象、简单易用、易于掌握等特点,是可编程控制器(PLC,Programable Logic Controller)上控制算法实现的主要方式。它在控制器上的执行采用“从上到下,从左至
随着开放网络环境的发展,由物理社区环境逐渐演化出开放、共享、多元化的在线社区环境。在实体进行协作活动前,为其提供安全性保障成为在线社区当前面临的挑战之一。信任管理的
近年来,随着社交网络和移动互联网的兴起,数据正在以前所未有的速度被创造出来,大数据受到了越来越多的关注。海量的数据中蕴含着大量有价值的信息,但是要从中找到用户所需要的信
随着科学研究所处理的对象和数据量的不断庞大,科研学者们对于高性能计算机的需求越来越迫切。目前在硬件层面,构建并行计算环境的技术已经相当完善,相对于并行计算硬件支持技
不可压缩管流问题作为流体力学的重要研究对象,对此进行的研究成果被广泛应用于等离子体物理学和磁流体力学等相关领域的科学研究。对不可压缩管流进行精确模型的数值模拟需要
立体匹配是计算机视觉领域中的一个关键问题,它通过一台或多台相机对同一景物成像获取一系列不同视角下的图像,然后在这些图像中查找对应点,获得它们之间的几何位移,并根据几
基于控制网格的三维模型形变技术在CAD与图形学领域具有广泛应用。  但是,到目前为止,为三维模型建立有效的控制网格仍然十分困难。自动的三维模型控制网格生成方法存在着无
学位
随着教育改革的不断深化,高校规模的不断扩大,各大高校教学运行和教学管理的任务也随之增大。其中,公共选修课是普通高校提高学生综合素质、培养一专多能型人才的重要环节,公