【摘 要】
:
随着互联网应用的规模化、普及化,以及计算机技术的不断发展,互联网产生的数据正高速增长,可获得的语料库规模也日益增长。研究表明,统计机器翻译系统的翻译质量通常与语料库
论文部分内容阅读
随着互联网应用的规模化、普及化,以及计算机技术的不断发展,互联网产生的数据正高速增长,可获得的语料库规模也日益增长。研究表明,统计机器翻译系统的翻译质量通常与语料库的大小成正比,即语料库越大,翻译质量越好。然而,随着平行语料库规模的急剧增长,现有的基于单机方式的或传统分布式工具的模型训练方法的效率越来越难以满足大规模机器翻译处理的需要。本文对大规模翻译模型的并行化训练方法、算法与系统进行了研究,在保证不改变原有单机算法训练结果和精度的前提下,提出了对大规模模型训练过程进行并行化优化的一系列方法和算法,旨在有效地提高大规模翻译模型训练的计算性能。首先,本文通过对大规模翻译模型的训练算法进行并行化研究,抽取出两个对大规模训练效率影响至关重要的基础性支撑方法和算法——分布式最大似然估计方法和分布式参数管理机制,并进行了重点研究。对于分布式最大似然估计方法,本文研究提出基于Spark的join操作的并行化算法,该算法实现了良好的数据扩展性。对于分布式参数管理机制,本文基于Spark设计了两种不同的管理方法,一种是基于Broadcast变量传输的共享机制,每个计算节点通过网络传输获得一份参数供所有计算任务共享访问;另一种是基于HDFS的参数共享机制,实现每个计算节点从HDFS中只载入一份参数供所有计算任务共享访问。这两种方法都能稳定地实现分布式的参数加载、访问和更新。在这两个基础支撑算法的基础上,本文研究构建了以下两套分布式训练方法和框架,并在此基础上实现了一系列模型训练方法与算法:(1)分布式EM训练方法与框架:该训练方法与框架通过数据存储与分片优化,实现并提供高效的EM算法训练流程。本文基于此方法与框架研究大规模词对齐训练方法,设计实现了“IBM模型一”和“HMM词对齐模型”的分布式训练算法、以及分布式调用MGIZA++的算法Align_on_MGIZA。(2)分布式翻译模型训练方法与框架:在此基础上,本文实现了大规模短语翻译模型训练算法以及层次短语翻译模型训练算法。最后,本文基于Spark设计实现了并行化模型训练算法,并进一步开发了一套分布式机器翻译模型训练系统——Seal。实验结果表明,Seal中“IBM模型一”和“HMM词对齐模型”训练算法的训练性能相比MapReduce方法提升了 2-5倍,Align_on_MGIZA算法相比MapReduce方法提升了 1-2倍;另外,短语翻译模型和层次短语翻译模型的并行化训练算法的训练性能相比于MapReduce方法分别提高了 2-4倍和5-8倍。Seal提高了大规模机器翻译系统中的模型训练效率,且表现出良好的系统和数据可扩展性,能更好地适应大规模语料库的训练。
其他文献
随着我国主要城市城市化的不断发展,城市快速路成为了城市的主动脉。快速路拥堵的发生不仅造成道路通行能力降低,还容易发生交通事故。本文以此问题为背景,通过对交通流理论的微观层面分析得到车辆换道特性,并对车辆换道横向轨迹做出规划,从中得到最优换道轨迹。本文首先介绍了交通流理论以及微观模型中的元胞自动机模型。通过对单车道元胞自动机的研究,通过仿真得到在定义的不同规则下,交通流呈现的特征及现象。通过分析车辆
本文归纳总结了国内外生产线平衡研究领域的学术成果,对于L公司无线连接器线圈生产线平衡问题,先后运用工业工程和遗传算法进行优化改善,最终达到较为理想的生产状态。首先本
电池管理系统具有能量双向传输的特点,需要双向DC-DC变换器来连接直流母线和电池组,保证电能的双向传输。双有源桥式变换器是电池管理系统中常用的一种双向隔离型DC-DC变换器,具有控制灵活、易实现软开关的特点。但双有源桥式变换器的可控量多,因此控制复杂,使用传统闭环控制时变换器性能不佳。模型预测控制是基于预测模型,在线求解一个开环优化问题,得到最优控制输出并作用于系统的一种新型控制方法。本文针对双有
苦丁茶(Ilex kudingcha C.J.Tseng),多年来一直在中国作为凉茶食用,并且能治疗各种疾病,包括脱水,中暑,鼻炎,结膜充血和头痛等。苦丁茶含有多种生物活性化合物,经试验研究发现其具有显著的抗癌,抗炎,抗糖尿病和降血脂等作用。绿原酸作为苦丁茶中的抗炎成分,目前研究较多的是其抗肿瘤和抗氧化等活性,关于绿原酸抗炎作用也只停留在表象,对其作用的机理研究非常有限。本实验旨在研究苦丁茶提取物
随着银发浪潮的席卷,养老话题备受关注。失独老人作为老人中特殊的群体,他们是中国人口红利下的“功臣”,却面临着“老无所养”、“老无所依”的巨大挑战。长期遭受的生理、心理双重折磨,物质、精神多重缺失使失独老人在经济、照料、医疗护理、精神慰藉和人际交往上表现出了更加强烈的需求。而在政府养老压力与日俱增的今天,单一的养老服务供给主体已经无法满足失独老人的养老需求,多元供给主体共同提供养老服务才是养老发展的
当代大学生作为拥有较高科学文化知识水平、富有发展潜力的先进青年群体,是国家重点培养的高素质人才,是实施人才强国的重要预备力量,也是未来建设和发展中国特色社会主义事业的主力军以及推动社会进步和发展的重要人才。正如习近平总书记所说:“青年是国家的未来,民族的希望。青年兴则国兴,青年强则国强。”高等教育培养的人才既要具有较高的科学文化素质,更要具有良好的思想道德素质。这不仅是大学生自身成长和发展的需要,
随着装配式建筑的发展,双模结构对混凝土的要求较高,而混凝土作为工程项目中必备的材料之一,但是在大体积混凝土的浇筑、装配式结构连接、玻纤杆新型混凝土结构设计等方面仍然有较多需要解决的问题,研究自密实混凝土的基本力学性能以及其在装配式双模结构等中的应用有一定意义。本文选用0%、10%、20%、30%、40%的粉煤灰掺量来研究自密实混凝土的抗压强度,发现粉煤灰掺量为20%时,混凝土试块的抗压强度最优,在
特高压输电塔-线体系是社会生活中最关键的基础设施之一,确保特高压输电塔—线体系的安全有效运行具有重要的现实意义。然而,通过近几年世界范围内的数次大地震的震后调查表
在采矿、采石等工业生产中,传统的岩石颗粒质量检测方法主要依赖人的主观视觉,会造成效率低、资源浪费的问题。结合机器视觉以及图像处理技术提高岩石颗粒尺寸和形状测量的准
尾矿库是金属矿山最常见并且最难恢复的废弃地。作为新形成的生态系统,尾矿具有植被缺乏、重金属浓度高、养分不足、微生物群落结构简单、土壤团聚体尚未形成等特点。本研究