面向军事领域的土-汉神经机器翻译关键问题研究

来源 :战略支援部队信息工程大学 | 被引量 : 0次 | 上传用户:redkind
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面向军事领域的土耳其语-汉语神经机器翻译研究,属于低资源语言垂直领域机器翻译研究范畴。采用基于神经网络的机器翻译方法,通常需要将源语言词表的规模控制在3-5万之内,且神经机器翻译模型的训练往往需要大规模平行语料数据作为支撑。对于土耳其语这种低资源语言来说,必然面临着严重的数据稀疏问题,即常见土耳其语单词的数量可以达到百万量级,大量低频词将被处理为“未登录词”,进而影响翻译模型生成译文的流利程度。受利用源语言知识可进一步提升神经机器翻译性能这一发现的启发,本文尝试从“未登录词”处理、平行语料库构建、融入源语言句法信息等关键问题研究入手,分别利用形态分析方法构建土耳其语神经机器翻译词表、基于反向翻译的句对齐检验方法筛选开源土-汉双语平行句对、基于相似形态结构的句子聚类方法扩充土-汉双语平行数据、基于土耳其语军事术语自动抽取及替换的方法增强平行数据的军事领域属性,以期通过源语言数据精加工的方法提升土-汉神经机器翻译模型处理军事领域文本的能力,相关成果对于推动土耳其语-汉语神经机器翻译理论、方法和技术的发展无疑具有重要的学术探索意义。本研究的主要学术贡献如下:(1)针对土耳其语神经机器翻译词表构建、命名实体识别、领域术语抽取等多个自然语言处理任务,提出了一种基于词典和规则的土耳其语单词形态分析方法,构建了一个由“词根+形态句法标记”、“词根+形态标记”和“词根+屈折组”三种不同形态分析形式构成的土耳其语形态分析器。该形态分析器的形态分析词典以TS-Corpus形态分析词表为基础,额外增加了固定搭配、命名实体词缀、未登录词、拼写错误、复合词和形态消歧规则表,词条总数为1120000余个。形态消歧规则包括基于单词同现约束、基于格词缀标记约束和基于单词整体形态句法标记约束的消歧规则三类。土耳其语形态分析器具有开放式的词表优化功能,可有效避免规则之间发生相互冲突的问题。实验分析结果表明,利用上述三种方法对词表规模为742060词形式的153万句土耳其语训练语料进行形态剖析,土耳其语总词表规模分别缩减84.36%、84.78%和85.33%,相较于基础形态分析词表,基于“词根+屈折组”的形态分析方法可使常用词汇减少21.4%。(2)针对土-汉双语平行语料资源匮乏问题,提出了一种基于形态分析的土耳其语句子聚类方法,设计了一个基于句子聚类的土耳其语简单句抽取工具。该程序主要包括基于“词根+UNK”的词根结构聚类、基于“词缀+UNK”的句法结构聚类和动态增加专有名词、时间、日期、数字标记的句子结构聚类三种聚类方式。按照高频结构语句抽取、在线机器翻译实验和半监督式译文选取三种操作,本文首先从规模为500万句的土耳其语单语语料库中抽取了500种最常见结构语句,然后利用必应、小牛和谷歌在线翻译系统获取相应的汉语译文,通过人工干预的方法构建了一个规模约为10000句的土-汉双语平行语料库,结果表明通过该方法可有效获取一定规模较高质量土-汉双语伪平行数据来扩充训练语料。(3)针对开源土-汉双语平行数据对齐错位、译文质量差等问题,提出了一种基于反向翻译的土-汉双语句对齐检验方法。该方法首先利用谷歌在线机器翻译系统获得待检验语句的反向翻译译文,然后通过构建词袋模型进行句子语义相似度计算,进而自动实现土-汉平行语句对齐的检验和抽取。本文基于该方法对210万个土-汉双语句对进行筛选,共抽取保留153万个句对作为通用领域翻译模型训练语料,有效提升了土-汉双语平行语料库的质量。(4)针对军事领域机器翻译系统无法回避的专业术语问题,提出了一种基于混合策略的土耳其语军事术语抽取方法,设计了一个面向军事领域文本的土耳其语军事术语自动抽取工具。本文首先对航空、通信和军事三个领域的术语词典进行对比分析,提取了土耳其语军事领域术语的独有特征,然后根据这些特征构建了停用词表、关键词表和形态分析词表序列模式列表,并最终通过点互信息、信息熵和左右临接词缀实现了术语自动抽取工具的构建。在此基础上,本文构建了一个规模为1500个词条的土-汉军事术语词表,并利用该词表对规模为9万句的军事领域土-汉伪平行数据进行了优化。(5)针对神经机器翻译模型无法学习数据之外先验知识的短板,提出了基于序列和基于表示学习的词法信息融合方法,对土耳其语词根序列和形态句法标记序列分别进行编码,并将拼接后的隐层状态表示用于模型训练的词向量表示,结合基于BPE算法的子词切分方法,训练了7个面向通用领域和2个面向军事领域的标准Transformer土-汉神经机器翻译模型。根据BLEU评测结果,基于形态分析构建土耳其语神经机器翻译词表的方法明显优于基于BPE算法的子词切分方法,其中“词根+屈折组”的形态分析方式效果最佳,据此训练的通用领域翻译模型BLEU评测结果相较于BPE基线模型提高了1.15,据此训练的军事领域翻译模型BLEU评测结果相较于通用领域翻译模型分别提高了1.82和1.58。通过“词根+形态句法标记”和“词根+形态标记”的方式进行形态分析结果表明,基于表示学习的平行编码方式训练的翻译模型优于基于单一序列编码方式训练的翻译模型。本文探讨了融合语言学知识和数据增强方法在低资源条件下土-汉神经机器翻译领域的应用,主要针对神经机器翻译词表设计、军事术语自动抽取和土-汉伪平行数据构建这三个关键问题分别制定了适用性强的技术策略,可显著提升土-汉神经机器翻译的性能,并取得了良好的实验结果,为垂直领域土-汉神经机器翻译研究提供了新思路和新方法。在将来的研究工作中,相关数据和技术成果可扩展应用于其他低资源语言信息处理任务,以满足未来军事任务需求。
其他文献
光伏发电技术是一种清洁的绿色能源技术。随着国际社会对全球气候变暖及化石能源枯竭问题的日益关注,光伏发电技术越来越受到学术界和工业界的重视。硅基太阳电池是目前光伏发电市场中最成熟且份额最大的电池产品,而“降本增效”是行业发展的主旋律,也是光伏发电平价上网的推动力。提高太阳电池的光学性能是提高其光电转换效率的重要途径之一。近些年,随着金刚线切技术的大规模应用,硅片成本得以大幅下降。但金刚线切多晶硅片,
背景:严重烧伤是一种高死亡率的疾病,严重烧伤后早期出现的休克是引起患者死亡的主要原因,亦是治疗的重点和难点,但目前引起严重烧伤早期休克的病理机制仍未被完全阐明。有报道显示中性粒细胞分泌的肝素结合蛋白(heparin binding protein,HBP)和髓过氧化物酶(myeloperoxidase,MPO)可能分别与血管渗漏和糖萼损伤有关,但在严重烧伤中的作用机制不明。目的:研究中性粒细胞脱颗
糖尿病视网膜病变(Diabetic retinopathy,DR)是影响糖尿病人群视力最常见的微血管并发症。持续性高血糖状态下的慢性低度亚临床炎症对视网膜微血管有影响,最终导致DR。一项日本研究表明,15.0%的轻度非增生性DR发展为增生性DR(Proliferative diabetic retinopathy,PDR)。糖尿病病程的增长,严重影响视力的PDR的发病率亦增高。研究DR的具体发病机
生物材料在纳米尺度的结构和形貌对材料本身的机械性能、生物相容性、降解性能等具有重要影响。可降解的生物材料一直是国内外研究的热点,其中丝素蛋白由于具有可控的降解速率、降解产物无毒性、较好的机械性能被制备成多种生物材料形式,应用在生物医学领域中。纳米孔结构因其具有较高的比表面积、表面能高、提高材料的通透性和细胞粘附性,在药物递送、组织工程等方面具有广泛的研究,尤其是具有显著的尺寸效应和表面效应的直径小
随着“互联网+教育”的推进,学习环境的变化,引导着学校教育的理念、教与学的方式、教育生态都在改变。学校教育在面对面教学的基础上,融入了“在线教学”的元素,已逐步形成了混合教学的形态。受COVID-19疫情冲击,2020春季学期在线教育在中小学得以长时期大规模的实践,又一次加快了“在线教学”与“面对面教学”的融合。那么,教师应具备哪些胜任特征,才能胜任“在线教学”呢?这给未来教师培养以及一线教师的专
冷轧板是一种广泛应用于汽车、家电等行业的重要材料,其表面微观形貌直接影响冷轧板的冲压成形、涂漆和抗磨损等性能。在冷轧过程中,轧辊表面微观形貌呈一定衰减比转印到冷轧板表面,因此,在轧制成形前对冷轧辊表面进行毛化预处理尤为重要。目前,轧辊表面毛化处理主要是采用电火花毛化,然而电火花设备昂贵,依赖进口,且电火花毛化还存在能耗高、油污染严重、形貌保持性差等问题。激光毛化技术具有形貌质量高、环境友好、运行费
倾向性分析又称观点挖掘,是对附带倾向性特征的文本进行语义处理、意见剖析和情感表达研究的过程,目的是对文本情感的倾向性进行判断。在经济全球化和高科技加速发展的新形势下,世界进入了信息化时代,尤其是随着互联网技术的不断革新与突破,新闻信息以海量的形式呈现在用户面前。新闻报道成为普罗大众探知世界的主要渠道,以美国为代表的西方大国一直在世界上占据舆论垄断地位,受到国际舆论环境、媒介传播机构政治立场、采写者
目的:越来越多的研究发现成骨细胞对造血干细胞的发育调控发挥重要的作用,一旦成骨细胞受损,导致小鼠骨骼以及骨髓增生异常,主要包括HSCs克隆性增殖、血细胞计数下降、B淋巴细胞生成与巨核细胞发育异常,最终引起一些的疾病发生,如骨髓急性白血病。树突状细胞是目前抗原呈递能力最强的细胞,在适应性免疫和固有免疫中均发挥着重要作用,但到目前为止成骨细胞谱系对树突状细胞的分化发育还暂不明确。本课题旨在探究成骨细胞
目的:探讨CD137-CD137L信号通路通过调节Rab7介导的自噬促进血管平滑肌细胞(VSMC)和Apo E-/-小鼠主动脉粥样硬化斑块钙化形成机制。方法:利用慢病毒载体过表达或者敲减Rab7,同时以载脂蛋白E缺陷(Apo E-/-)小鼠和C57/6J小鼠的原代VSMC为模型,应用炎症因子及重组CD137L激活CD137-CD137L信号通路,研究CD137-CD137L信号通路通过调节Rab7
柬埔寨语句法分析对于柬埔寨语语言本体研究、NLP研究和教学实践等均具有十分重要的理论意义和实用价值。从语言学角度来看,柬埔寨语句法分析是上承词法分析、下启语义分析的关键环节,是表层语法结构与深层语义结构连接的枢纽。从NLP角度而言,柬埔寨语句法分析的成效,直接影响到问答系统、机器翻译、信息抽取等高级任务的运行效率,是柬埔寨语NLP研究的重点和难点。从教学实践角度来说,柬埔寨语句法分析是真正弄通学懂