【摘 要】
:
近年来,为了提高统计机器翻译系统的准确性,普遍应用海量语料训练出大规模语言模型和翻译模型.而模型规模的不断增大,给统计机器翻译带来了突出的计算性能问题,使得现有的单
【机 构】
:
计算机软件新技术国家重点实验室(南京大学),江苏省软件新技术与产业化协同创新中心
论文部分内容阅读
近年来,为了提高统计机器翻译系统的准确性,普遍应用海量语料训练出大规模语言模型和翻译模型.而模型规模的不断增大,给统计机器翻译带来了突出的计算性能问题,使得现有的单机串行化翻译处理难以在较快的时间内完成计算,该问题在处理联机翻译时更为突出.为了克服单机机器翻译算法在这方面的局限性,提高大规模统计机器翻译处理的计算性能,面向一个实际的联机翻译系统,提出了一个分布式和并行化翻译解码算法框架,对整个大规模语言模型和翻译模型同时采用分布式存储和并行化查询机制,在此基础上进一步研究实现完整的翻译解码并行化算法.研究实现了一个基于分布式内存数据库的层次短语并行化机器翻译解码器,该解码器使用分布式内存数据库存储和查询大数据量的翻译模型表和语言模型表,克服了传统的机器翻译系统所面临的内存容量和并发度方面的限制.为了进一步提高并行解码速度,还研究实现了另外3项优化技术:1)将翻译模型表的同步规则和Trie树结构的语言模型表转化为基于内存数据库的"键-值"结构的Hash索引表的方法;2)对Cube-Pruning算法进行了修改使其适用于批量查询;3)采用并优化了批量查询方式减少语言和翻译模型查询时的网络传输开销.所提出的解码算法实现了基于大规模语料统计机器翻译时的快速解码,并具备优异的系统可扩展性.实验结果表明:与单机解码器相比,单句翻译速度可提高2.7倍,批量翻译作业的总体解码性能可提高至少11.7倍,实现了显著的计算性能提升.
其他文献
黑莓具有丰富的营养价值与药用价值,将黑莓制成黑莓酒,不仅可利用其独特的营养成分和生物活性成分,而且可大大提高其附加值,迎合饮料市场多样化的发展,满足消费者的需求。黑
随着互联网和万维网的流行以及JavaScript在Web浏览器中的作用越来越重要,对JavaScript程序的执行行为的研究将有利于提高浏览器的性能,改善用户的体验.传统的研究认为JavaSc
针对流域水文模型预报中的不确定性问题,采用简单平均、最优线性组合、最优非线性组合三类4种组合方法构建了新安江模型、垂向混合产流模型和Tank模型相结合而组成的组合预报
自改革开放以来,我国的经济实现飞跃式的发展,企业的规模数量不断加大、经济类型不断深化、经营结构不断细化,给税务部门的管理工作带来重大的挑战,国家税务总局也因此不断与时俱
国际互联网和电子商务的发展将改变经济活动的信息流程、资金流程和实物流程,针对网络时代的信息流程、资金流程和实物流程的特点进行预见性的分析和探讨.
新中国成立以来,经过几十年的快速发展,我国的综合国力得到显著提高,居民的生活质量也有了明显的改善。然而,由于地域、环境、经济政策以及居民个人能力等因素的差异,一部分
本文从国际能源现状,国内能耗现状分析现在对暖通行业提出的严峻挑战。区域供热以其众多的优势在供热形式中作为降低采暖能耗的方法之一。通过对前人文献的阅读中可以看出,对区
聚合物太阳电池因其具有重量轻、超薄、柔性且易于溶液成膜的特点受到人们的广泛关注。但是效率不高且不耐用的特点限制了其应用。电子给体材料的吸收频段与太阳光谱的匹配性
随着联合国哥本哈根气候变化大会和坎昆气候大会的召开,应对气候变化,发展低碳经济,越来越成为国际社会的共识。一些发达国家如欧洲的瑞典、丹麦、意大利等已经在全国范围内进行
目的:依据三维CT图像数据,在股骨头三维CT诊断分析系统中重构出三维股骨头坏死模型,直观化确定坏死的部位,测出坏死病灶的体积并与股骨头坏死大体标本的体积比较,探讨其准确性