基于短语的统计机器翻译的研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:liongliong525
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的高速发展,统计机器翻译展示了日益广阔的应用前景。基于短语的统计机器翻译系统在抽取短语时往往将任意连续的单词看作短语,由于没有考虑短语的合理性,因此会产生大量冗余的短语。这不仅扩大了系统的搜索空间,还严重影响了翻译质量。针对以上问题,本文重点研究如何有效地提高短语的质量。本文首先分析了统计机器翻译的相关原理和各种技术,并在此基础上构建了一个基于短语的统计机器翻译基准系统。然后使用C值和短语粘连度两种方法对短语的合理性进行评分,再据此构建一个更有效的短语翻译概率表。实验结果显示,使用C值方法将短语翻译概率表缩减至78%时,翻译结果的评价指标BLEU值可以提高0.02;使用粘连度可以使短语翻译概率表最小缩减至47.5%,翻译结果的BLEU值可以提高0.0158。另外,本文还将主题模型应用于统计机器翻译系统。训练时为每个短语确定一个主题分布,在翻译时再过滤掉与主题不相关的短语,从而提高翻译性能。实验结果显示,跟基准系统相比,采用主题模型后可使BLEU值提高0.0136。最后,本文还将短语的主题模型和C值方法结合起来,在保留短语有效性的同时对短语翻译概率表进行进一步的缩减。实验表明,当短语翻译概率表缩减为原来的57%时,最终的BLEU值仍有一定的提高。本文的研究和实验表明,使用这些方法可以有效地缩减并优化短语翻译概率表,从而明显改善翻译质量。将主题模型应用于机器翻译是一个全新的尝试,今后我们将进一步探讨如何在统计机器翻译中更好地发挥主题模型的优势。
其他文献
多Agent协作问题是RoboCup2D中研究的热点问题。RoboCup仿真2D中,协作问题解决的好坏直接关乎比赛效果。针对仿真2D中的实际问题,本文首先介绍了多Agent协作研究背景及研究现
离散事件系统(Discrete Event System, DES)是由离散事件驱动,并由离散事件按照一定的运行规则相互作用,导致状态演化的一类动态系统。DES的本质是一类人造系统,如:柔性制造系
随着无线电技术的进步,无线电应用已经普及社会各部门各领域,各行业对无线电频谱资源的需求日益剧增。无线电频谱资源作为一种稀缺的、不可再生亦不可耗竭的公共资源,如可有
在传统业务系统中,企业组织的业务规则通过硬编码实现并嵌入在业务系统的各个角落,导致业务系统的调整不能及时响应市场环境的变化。业务规则管理系统把业务规则交给终端业务
程序理解在软件开发和维护过程中占据重要地位,贯穿软件开发生命周期的始终。程序可读性分析和概要化技术是程序理解的重要组成部分,可以帮助软件开发人员快速准确的理解大型
容错设计技术是提高计算系统可信性的重要措施。高能粒子辐射引起的软错误曾被认为是影响宇航电子用品可靠性的首要因素。随着集成电路特征尺寸的急剧减小进入纳米级,关键电
云计算是一种新兴的资源使用和交付模式,它以一种有趣的形式呈现并且推动科学的发展和商业应用。类似于水电,云计算通过按需消费向用户提供一种即时、灵活和可扩展的服务。云
频繁子图挖掘是图数据挖掘一个重要的研究方向,为的是找到图数据集合里频繁存在的子图集模式,从而找到图数据集合所包含的规律。随着数据正在迅速膨胀并变大,由于传统的频繁
随着科学技术的不断进步和城市化进程的进一步扩大,智能住宅小区建设已成为当今国际国内城市规划的一个主要议题。其中,电力、自来水、煤气、暖气的户表数据自动抄送则是智能住
制造业是我国国民经济第二大产业,占据国民经济主要地位,尤其值得注意的是:我国制造业中以中小型企业为主,占据90%以上,且该类企业以离散制造居多,它们在制造业信息化浪潮中的发展形