基于测试集的机器翻译系统显著性检验方法

来源 :第十二届全国机器翻译研讨会 | 被引量 : 0次 | 上传用户:dudulee
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,基于统计的机器翻译技术快速发展,如何准确快速的评价机器翻译系统之间的性能差异是一个研究的热点问题。通常,基于统计的机器翻译方法利用定义好的自动评价标准,在标准的测试集上计算系统的得分(如BLEU 值、NIST值等),然后根据得分的相对大小来确定系统之间的差异大小。研究发现这种仅依靠得分大小来判断系统差异的方法并不完全可靠,尤其是在系统得分差异较小的情况下,需要进一步利用显著性检验来度量系统之间的差异是否具有显著性,即推断系统之间的差异是由于随机波动引起的,还是系统间真实的性能差异引起的。显著性检验常用来判断系统之间的性能差异是否来源于系统的性能改善而不是随机误差.用于机器翻译系统的显著性检验通常以句子作为基本的抽样单位,忽略了抽样样本之间的独立性假设,而且用于机器翻译系统的自动评价标准不能对句子进行准确评价,因此引入了额外的随机误差.本文详细分析了影响显著性检验的这一问题,在Clark 方法的基础上,提出了一种以测试集为基本单位的显著性检验方法.实验结果表明,该方法进一步消除了不同抽样方法对显著性检验的影响,获得更稳定的检验结果.
其他文献
新HSK与旧版HSK相比,不仅在题型、等级上有所差异,也更强调试题中的文化因素.但目前缺少对于新HSK考试中文化因素的分布及其特点的系统研究.本文以内客分析法对15套
会议
脱离文化或语境,孤立地进行汉字形、义的讲授,又或者仅仅停留在部件和文化的机械对应关系中,这是目前汉字教学的一些误区.本文探讨多媒体辅助下,针对非零起点汉语学
会议
随着现代教育信息技术日新月异的发展,汉语网络视频教学模式应运而生.该模式是汉语教学的一场革命,充分体现了"以学生为中心"的教学理念.针对韩国市场研发的"汉语在
会议
道经是我国古籍的重要组成部分,有着重要的学术价值.道经中存在大量的俗讹字,是文本校理和阅读中的一大障碍.本文比照不同的道经版本,经过详细的考证和分析,指出道
会议
文章列举了《詩》毛传的瑕疵三则。《周南·葛覃》曰:为缔为绤,服之无斁.毛传、《说文》、郑笺,皆训"斁"为"厌",后人解《诗》、《书》、金文沿用此说.其实《诗》、
会议
微课是教育信息技术现代化的产物,它以短而精、微而全的特点成为翻转课堂教学的主要资源.本文基于微课在培养学生自主学习能力和提高学习效率方面的明显优势,结合对
会议
  严复翻译英国古典经济学家亚当 斯密巨著《国富论》时所选用的英文底本The Wealth of Nations(Rogers 1880)作为严译研究的重要原始资料逐渐浮出水面,特别值得注
会议
汉字形体词符化是汉字构形系统古今发展的全方位转换方式,词符化既是对旧系统的改造过程,也是新系统的建立过程。通过构件形体的义化和声化、转换结构与构意重建、构
会议
互联网提供了名副其实的文本大数据.如何在这个"新常态"下进行汉语各项研究,是一个具有挑战性的问题.本报告在报告人所提出的"基于自然标注大数据的语言计算"学术思
会议
深度神经网络是深度学习技术的代表,是一种模拟人脑的计算模型,已经在人工智能的很多领域取得了突破性的成果.基于神经网络的机器翻译是利用深度神经网络进行源语言
会议