基于深度学习的印尼语机器翻译系统的实现

来源 :山东大学 | 被引量 : 0次 | 上传用户:ty20011
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着印度尼西亚与外界交流的日益频繁,印尼语成为了相互交流的主要障碍,而机器翻译便是解决这一障碍的有效手段之一。对于机器翻译任务,也和众多领域一样青睐于深度学习,尤其在序列到序列的神经网络翻译系统打破了传统机器翻译的局面后,一体化的结构和不错的翻译结果受到了研究者的瞩目。本文以深度学习为研究设计背景,结合近年相关的前沿研究成果,针对印尼语的语言特性以及完成印尼语机器翻译系统所面临的问题,主要在以下方面展开工作:(1)根据印尼语和英语高度相似性的特点,参考了英语翻译的神经网络架构后,确定印尼语翻译采用编码-解码的神经网络结构,并进行基本结构以及隐层单元计算的相应改进。(2)数据挖掘存在单双语料规模小质量差的问题,采取两种不同的挖掘策略并在工程上实现:本地定向抓取和集群上分布式抓取。(3)对数据进行多种方式清洗以及预处理,保证数据质量的情况下使其规模达到最大化。(4)在模型训练之前先对印尼语进行字符级训练,生成语言检测模型。另外分析并解决训练中出现未登录词的问题。(5)优化训练模型并实现一体化的印尼语机器翻译系统。最后,对印尼语与汉语互译、印尼语与英语互译的翻译模型测试,最优的模型融合后BLEU值达到39.52。将模型结果应用到实际系统中,实现对语言的检测,多方向语言互译以及手动修正结果等。
其他文献
<正> 我国是全球最主要的大蒜生产国、消费国和出口国。从国际市场来讲,我国在国际市场占据绝对份额,我国出口动态也为世界各大蒜生产国及进口国所关注。一、我国大蒜出口基
期刊
通过对3个气候区,6个不同类型的品种,研究了寒冷地区温度、日照对水稻产量和品质的影响。结果表明,温度是影响水稻产量与品质的主要气候因子,水稻出穗期随温度增高而提前,产
我们并不能在人最多处取暖,却在独处时无比渴望 We can not warm most people, but they are desperately wanting to be alone
糖尿病为终生疾病,老年糖尿病发病率越来越高,其护理工作越来越重要。为了更好地开展老年糖尿病护理,将基于科学证据的循证护理应用到老年糖尿病的护理中,对患者进行情况评定
为有效封堵疏干矿区开采矿段上部含水层的涌水,根据含水层层位结合实际设备物资条件对放水探矿孔进行了井下注浆。注浆工作结束后初步观测止水效果较明显,达到了减少巷道围岩涌
利用吉林市气象台1971~2010年气温、降水量及日照时数资料,采用统计和线性倾向趋势分析方法,对吉林地区1971~2010年的年、季和作物生长季平均气温、降水量和日照时数变化趋势作
<正> 柴油机中大多数轴类零件用来传递扭矩,扭转剪切断裂是其失效形式之一。由于某种原因,轴的输出端被卡住,而加给轴的扭矩又未撤除,致使轴超载运行,发生扭转剪切断裂。因此
石墨烯是由单层碳原子构成的新型二维晶体材料,已经在微电子、量子物理、材料和化学领域表现出优异的性能和广泛的应用前景,使碳材料继碳纳米管后再次成为国内外的研究热点。
目前,高压加热器管侧的水室封头材料常采用SA-516 Gr70钢板制造.为了寻求更经济的钢板材料,设计方考虑采用牌号为20MnNiMo的锻件,代替SA-516 Gr70钢板作为制造高加水室封头的