统计机器翻译解码器的设计与实现

来源 :中国科学院自动化研究所 | 被引量 : 0次 | 上传用户:book_008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器翻译是自然语言处理中的一个重要研究方向。近年来,统计机器翻译取得了很大的成功,基于短语的翻译系统在机器翻译评测中占据了主要地位,并且取得了领先的成绩。最大熵模型可以方便地添加不同的知识源,目前已经成为统计翻译的主流框架。   本文针对统计机器翻译解码器的设计与实现以及统计机器翻译实验平台的建设问题做了相关的研究和探讨,主要内容归纳如下:   (1)实现了最小错误率的参数训练方法   最小错误率的最大熵翻译模型参数训练方法直接以翻译结果的评价标注为优化准则,在一定程度上可以提高参数训练的质量。本方法的实现为实验系统开发和平台建设提供了灵活方便的工具模块。   (2)设计实现了基于柱搜索的解码器   在解码器实现过程中,充分考虑了算法的执行效率和可扩展性等因素,为统计翻译系统的实现奠定了基础。   (3)建立了统计翻译系统实验平台   在上述工作和已有技术的基础上,建立了一个统计翻译系统实验平台。该平台提供了丰富的功能选项和接口,为统计翻译系统的深入研究提供了方便。
其他文献
干涉合成孔径雷达(Interferometric Synthetic Aperture Radar,简称InSAR)获取地表的高程信息和形变信息己经在地形测绘、地震火山监测、地表沉降和冰川移动等多个领域得到了
学位
面向服务的体系架构(Service-OrientedArchitecture,SOA)已经成为计算机软件的主要发展趋势。Web服务(Web Service)是目前SOA的主要实现方式。它定义了松散耦合的软件框架以及
学位
当前的互联网络路由算法主要针对尽力发送(best-effort)和基于服务质量(Quality ofService Based)两种数据传输模型,路由的设计正是基于现有的网络数据传输模型来考虑,以如何保
近四十年来,基于生物特征的身份识别技术得到了研究者们的广泛关注和深入研究。综合考虑可识别性和易采集性,目前在实际中被广泛应用的生物特征识别技术主要包括虹膜识别技术、
随着Web2.0的发展,微博、社交网站、博客等社交类网络应用已融人人们社会生活的方方面面。社交网络的一个突出特点是个体间相对静态的网络结构和具有动态性、时效性的个体信息
机群数据库系统成为大容量数据处理密集系统的有效载体,其应用范围越来越广、系统规模越来越大。本文以国家网络安全监测系统中对大规模机群数据库系统的需求出发,总结了其对机
随着Internet的飞速发展,Web上的网页数据量成几何级数的增长。为了更快更准确的找到最需要的信息,人们越来越依赖于搜索引擎系统。尽管各大搜索网站不断的改进搜索引擎技术,但
学位
随着支持SIP协议的众多服务器和终端产品的相继推出,全面评测这些产品的性能成为目前亟待解决的问题。在此背景下,作者对SIP协议测试方法和测试工具进行了深入的研究并已取得
随着软件规模的日益增大,软件变得越来越复杂。各种软件安全缺陷引起了严重的安全问题,甚至造成资源的重大损失。为了降低这种风险和损失,软件开发人员在实施软件工程的过程中采
学位
骨架是图像几何形态的一种重要拓扑描述。随着MRI,CT及其它3D重建技术的发展,3D图像数据应用越来越广泛。3D骨架在图像数据的压缩,物体识别与表面重建,3D植物建模及植物根系图像