基于深度学习的汉语—塞尔维亚语机器翻译的研究与实现

来源 :河北地质大学 | 被引量 : 0次 | 上传用户:hellomfc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着中国和塞尔维亚双边关系不断深化,沟通障碍问题日益突出,对译员的需求和译员的数量形成了紧张的供需关系,而构建汉语-塞尔维亚语机器翻译能有效解决这一问题。在构造汉语-塞尔维亚语机器翻译模型过程中,由于塞尔维亚语(塞尔维亚语西里尔文)属于小语种,汉-塞双语平行语料的收集工作存在一定难度,再着塞尔维亚语具有丰富的词形变化(例如,数、时态、格等),使塞尔维亚语词表稀疏严重,造成汉语-塞语词表在词频分布上的不对称,最终导致汉语-塞尔维亚语机器翻译不能取得较好的翻译质量。本文以深度学习为研究背景,结合近些年机器翻译研究领域的学术成果,针对塞尔维亚语语料稀缺、词表稀疏的特征,提出基于语义相关的汉语-塞尔维亚语机器翻译模型,其主要进行了如下方面的工作:(1)研究和分析了机器翻译的发展历程以及相关理论和测评技术指标。(2)根据塞尔维亚语和俄语同属于斯拉夫语族且在语法上具有相似性的特点,参考中俄神经网络机器翻译模型,确定适用于汉语-塞语机器翻译神经网络结构,并进行神经网络的训练。(3)获取训练语料,在数据处理过程中,提出对中文词表和塞尔维亚语词表使用基于语义相关的压缩方法,以降低词表稀疏程度和增加神经网络对语义的理解。(4)提出基于语义相关的机器翻译质量测评方法(BLEU-ws),以此作为临时模型的选取,并在实验中和BLEU测评方法进行对比。(5)对训练后的模型进行优化,并实现可由外部调用的API接口。实验证明,本文通过基于语义相关的压缩词表方式和使用BLEU-ws测评方法,降低了塞尔维亚语词表的稀疏性,克服了汉语-塞语词频分布的非对称性,在模型训练过程中能选择出有较强语义理解能力的翻译模型,对汉语-塞尔维亚语机器翻译质量有明显的提升。最终,对汉语-塞尔维亚语机器翻译模型的测评结果显示,使用BLEU-ws测评方法得到的最优模型的BLEU值达到20.8,较使用BLEU测评方法进行模型训练得到的最优模型BLEU值提升1.6分,提高8.3%。
其他文献
语文新课程标准强调教师要注重培养学生的阅读能力,提升学生的阅读速度,群文阅读教学因其在单位时间内阅读量大、注重课内课文相结合,能锻炼学生对信息的整理、归纳能力等优点,受到了广大教育工作者的关注。笔者主要研究高年级叙事性作品如何进行群文阅读教学的,高年级的学生,他们与低年级的相比,注意力更为集中,具有一定的生活经验和知识储备,大大降低了教学难度,为群文阅读教学的顺利开展提供有利条件。小学高年级教材中
顾客满意度一直为理论界与企业界注重的主要内容,企业的竞争归根结底即客户间的较量。由于我国市场经济制度的建立与全球经济一体化进度的持续推进,商业银行的经营条件与思想有了巨大的改变。我国商业银行如果想在剧烈的市场竞争中更好地立足,就应当积极建立“以客户为首”的经营意识,致力于提升顾客满意度,与顾客建立优良的合作关系,积极达到顾客进一步、多领域的需求,才可持续提升我国商业银行的核心竞争力。以此为前提,本
伴随市场化改革的进程,小微企业像雨后春笋般拔地而起,这些企业在我国国民经济当中占据着重要的地位。在党的十九大中提出要大力支持小微企业发展,而且今年的两会中也提到需要采取多种措施切实降低小微企业的经营成本,不断的提升优惠政策的幅度。然而,当前我国的小微企业依然面临资金短缺的现象,以致于限制了很多小微企业的发展。而且,随着商业银行数量的快速增长和互联网金融企业的快速发展,商业银行所面临的市场竞争更加剧
基础设施建设在国民经济中发挥重大作用,是基础性、战略性和先导性的产业,对其他产业的发展也具有促进作用,所以政府对我国基础设施建设非常重视。基础设施领域经过多年的建设发展,沉淀了大量的优质资产,通过存量资产带动增量发展的需求愈发强烈。而基础设施领域的融资方式较为单一,传统的融资方式存在弊端,而且政府和企业一路高杠杆,基础设施建设的投融资体系亟需创新,盘活存量资产,降低杠杆率。2014年以来,REIT
词汇教学在英语教学中备受关注,也是英语教学的研究热点。近年来,学者们围绕图式理论和语境理论指导下的英语词汇教学做了大量的研究与探讨,并且都验证了图式理论和语境理论在英语词汇教学中的有效性。然而,很少有学者将这两种理论与单元话题相结合,探讨其对高中英语词汇教学的影响。新课程标准提出词汇教学要结合具体主题、在特定语境下开展综合性的语言实践活动,要使学生能够结合表达需要、交际主题和语境等因素来学习和使用
生物质能是自然界唯一可再生的含碳能源,将生物质转化为液体燃料实现了生物质的高附加值利用,可以减少化石燃料尤其是石油的消耗,是生物质最具发展前景的利用路线之一。5-羟甲基糠醛(HMF)、乙酰丙酸(LA)和糠醛(FF)等平台化合物可以由生物质水热转化制取,再经过羟醛缩合和加氢脱氧等反应来制备液体燃料。本文依托于国家重点研发计划项目的支持,开发了用于生物质水热转化制取平台化合物的固体酸催化剂,分别在水和
光不仅驱动光合系统将光能转化为用于植物生命历程中的化学能并合成有机物,还作为环境信号调控着植物的形态建成,此外,光对植物花色苷的合成影响研究较为广泛。本研究分别利用LED不同波长的红光(660 nm)和蓝光(450 nm)交替间隔补光、蓝光(450 nm)与UV-A(375 nm)耦合照明,探究光照对小白菜生长和营养品质的影响,旨在阐明光对小白菜生长及营养品质的作用规律,主要结果如下:(1)在可控
全空气空调系统设备繁多且结构复杂,在运行过程中容易发生各种故障。故障会导致系统无法满足温湿度需求,造成能源浪费严重、设备寿命缩短,甚至引发安全问题。故障检测与诊断(FDD)技术能够检测异常运行并诊断故障源头,为全空气空调系统全生命周期的运维管理提供决策支持,对维持系统安全、高效、稳定运行具有重要指导意义。目前国内外学者围绕全空气空调系统的故障检测与诊断问题开展了大量研究,取得了一系列理论成果。但是
空化问题在火箭低温泵中不可避免,且空化侵蚀正成为涡轮泵设计的主要考虑问题之一。本文通过超声发生器在液氮中产生超声空化,将声能集中转换为激励波压力源产生主动空化,来研究低温空化的侵蚀特性。由于低温流体的热效应相对水等室温流体机理更复杂,测量难度也更大,到目前仍十分缺乏低温超声空化相关的实验数据,数值模型也少有文献报道,超声空化在低温领域尚处于起步阶段。本文利用数值计算和实验研究相结合的方法,探究了液
博物馆文物在保存展出过程中,相对湿度对文物的影响尤其重要。为抑制减缓或阻止文物的物理化学性质变化,降低文物的损毁率,积极采取主动式监测调控等措施具有重大意义。结合文物保存常用的独立展柜体积小的特点和文物贮存所需的环境要求,针对目前国内外小型展柜广泛采用的半导体制冷存在散热装置大、制冷量小以及效率低的不足,基于斯特林制冷机制冷量大、响应快、寿命长、安全可靠等优点,设计并搭建了一台空气-水直接接触式文