基于深度学习的双语长句分割方法研究

来源 :北京交通大学 | 被引量 : 1次 | 上传用户:tonze5082
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器翻译是自然语言处理重要的研究领域。目前神经机器翻译的性能依赖于高质量大规模的平行语料库。受计算资源、训练时间以及模型框架限制,模型训练只能利用长度适中的平行句对,过长的句对会被丢弃,造成资源浪费。因此,研究如何把双语长句分割成为有效的句对,具有重要的理论意义和实用价值。传统的双语句对分割方法包括基于规则、基于统计、规则和统计结合的方法等。但是此类方法存在对语种具有依存性、分割精度不高等缺点。为了解决此问题,本文重点研究基于深度学习的双语平行语料库的长句对的分割方法,从而提高语料的利用率,提高翻译系统的翻译精度和翻译质量。本文的主要工作和创新点包括:(1)提出了一种基于深度学习的双语长句分割方法,通过结合单语分割模型和句子对齐模型召回长句对中高质量的短句对。实验结果证明,该双语分割方法的分割精度得到了有效提升,并可提升机器翻译的性能。(2)提出了融合依存句法结构的单语长句分割模型,通过结合基于神经网络的序列标注方法和依存句法结构提高单语分割的精度。实验结果证明,相较于传统方法,本文提出方法在中文单语长句分割任务上F1值提升了 2.06个百分点,在英文长句分割任务上F1值提升了 0.9个百分点。(3)提出了融合预训练语言模型的句子对齐模型,通过预训练语言模型获得更优质的句向量进行双语对齐任务。实验结果证明,该方法的句子对齐精度相比于传统方法F1值提高了 20.1个百分点。总之,本文创新性的提出了结合分割模型和对齐模型的双语分割方法,在单语分割和双语分割任务上的实验结果都远高于传统方法,证明了提出方法的有效性和实用性。
其他文献
针对汕头市某水产加工企业生产废水处理问题,通过实验研究探讨了水产加工生产废水处理的技术可行性,根据实验研究的结果和企业生产的实际情况,设计了UASB-接触氧化-MBR膜处理
对六辊可逆冷轧机横移装置采取控制简单、维护方便的开环控制方式,降低了故障率,提高设备运行稳定性。
介绍一种新型的工作辊弯辊横移装置,该装置通过优化结构,降低故障率,减少换辊时间及设备维护工作量,提高精轧机组辊缝调整的精度。
随着我国社会经济的飞速发展,人们对物质文化需要日益增长,对美好生活的向往更加强烈。传统职业卫生工作模式已不能满足社会发展需求,倡导企业大力开展健康促进工作是职业卫
事业单位企业化管理后财务管理或多或少受到一些影响,文章着重分析企业化管理的事业单位财务管理存在的问题,进而探究解决财务管理问题的有效措施。
陕西关中平原是陕西省重要的粮食生产基地,塿土是该区主要的土壤类型。本研究以陕西武功农田土壤为研究对象,分析土壤剖面中水稳性团聚体的分布及其稳定性,同时对土壤大量元
铅/氧化铝催化剂中是一种工业成品催化剂,广泛应用于工业生产中,具有良好的催化活性,而催化剂中铅的负载量,直接决定了催化剂的活性。本文研究了用EDTA容量法测定三氧化二铝
2020年春节,突如其来新型冠状病毒感染的肺炎疫情波及全国,而且随着近日返程高潮的来临,疫情日益严峻。面对这场没有硝烟的疫情阻击战,党中央、国务院高度重视,全面动员、全面部署
报纸
近年来,人类学开始关注灾难,为灾区和灾民增加了一份社会与人文关怀。布莱基等把灾难的社会与自然原因分别置于“原因序列”(spectrum of causation)的两端:有些灾难由社会原因
采用动态水热合成法制备了纳米硬硅钙石纤维,研究了石灰活性和石英粒度对硬硅钙石纤维合成过程的影响规律,同时,采用场发射扫描电镜(FESEM)、X射线衍射(XRD)等测试手段对硬硅