使用源语言复述知识改善统计机器翻译性能

来源 :北京大学学报(自然科学版) | 被引量 : 0次 | 上传用户:saosaoxp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了缓解双语语料不足导致的翻译知识欠缺问题,提出基于复述技术的翻译框架。此框架利用第三种语言获取带有概率的复述知识表,以Lattice表示输入句子的多种复述形式,扩展解码器使之可以对Lattice形式的输入进行解码,将复述知识作为特征加入到对数线性模型的目标函数中。在保持原始翻译知识表不变的情况下,此框架不仅可以增大短语翻译表对源语言现象的覆盖率,也能够增加候选译文表现形式的多样性。在3个不同规模训练集上的对比实验结果表明,在训练语料规模最小的情况下(10 K句对),系统性能有明显提升(BLEU+1.4%);在训练语料规模最大的情况下(1 M句对),系统性能也取得一定提升(BLEU+0.32%)。
其他文献
<正> 在海拔3950米高原上的 Potosi 城附近,玻利维亚正兴建世界上第一家采用基夫柴特法处理铅锌银复杂原料的冶炼厂。该厂年设计能力为5万5千吨含铅原料,每年生产330天。原料
对比3个版本教科书中"氧气的实验室制取和性质"内容编排方式和特色,引入探究过氧化氢制气装置、研究高锰酸钾制气装置的探究活动,以创新实验设计思路,优化操作技能。通过有意
介绍了应用全球定位系统实时动态测量(RTK GPS)技术进行无验潮水深测量的基本方法,并在实际工作中进行了验证。
文章介绍了世界锡储量及消费情况,强调从废料中综合回收锡的重要性;重点介绍了从马口铁废料中回收锡的几个主要的生产工艺,指出了电解连续脱锡工艺的优越性。
本文分析了在实施指令类言外行为的过程中,人们对语用原则的选择,归纳了二者之间的辩证关系,对人们在言语交流中顺利实施指令类言外行为,达到预期的效果具有参照作用。
以实际案例的形式阐述了GPS平面控制网建立的全过程,规定了该网的控制点点位选择原则及埋设标准,简单描述了该项工程的数据采集要求,利用基线解算和平差软件对采集的数据进行
本设计通过对安徽省繁昌县的实际情况,结合城市发展规划和城市建设管理方案,选取最优化的控制网。对GPS控制网进行数据处理、基线解算、平差处理及平面坐标转换。
深圳河流域是典型的高速及高度城市化区域。基于1988—2006年长时间序列降雨资料,借助RS和GIS技术,通过SCS模型对该流域降雨径流关系进行模拟,并结合流域内常住人口污水排放