基于数据增强和参数迁移的越南语依存句法分析方法研究

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:zj5536
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
依存句法分析是自然语言处理中基础研究任务的重要环节,旨在找到句子的句法结构或者句子中词汇之间的依存关系,研究越南语依存句法分析方法有利于更深入了解越南语语言结构,可以对机器翻译、文本摘要、信息抽取等上层任务提供句法特征。主流深度学习依存句法分析的效果很大程度上依赖于标注语料规模,但是目前越南语依存句法分析语料稀少,在UD(universal dependencies)~1数据集中仅不到三千条数据,导致越南语依存句法效果很不理想。本文针对越南语依存句法分析语料不足的问题,研究利用多策略数据增强方法扩增越南语依存句法分析语料方法,研究通过参数迁移的方式从英语模型迁移依存句法知识的方法,提升越南语依存句法分析的性能。本文取得了以下三个方面的成果:(1)提出融合多策略数据增强的越南语依存句法分析方法。越南语依存句法分析在语料稀少的情况下,训练得到的依存句法解析器精度不高,且很容易造成数据集中未知词比例高以及依存句法分析模型泛化能力差等问题。因此,提出一种融合多策略数据增强的越南语依存句法分析方法。多策略数据增强包括两种数据扩充方式,其一是基于同义词典的替换方法。根据构造的同义词典,依据同词性的同义词对原训练数据集进行同义替换,达到数据增强的目的。其二是基于mixup的方法。在双仿射模型不同位置对训练数据中原词与同义词进行mixup以产生虚拟新词,利用增强后的数据进行训练。实验结果表明所提方法能够有效增强越南语依存句法分析语料规模,达到五倍的数据增强,在UAS和LAS评价指标上最高获得了1.4点的提升,很好的提升了越南语依存句法分析的效果。(2)提出基于参数迁移的越南语依存句法分析方法。越南语的句法结构与其他语言仍存在很大不同,利用基于映射的迁移学习等方式进行越南语依存句法分析很容易造成语义对齐准确率不高、越南语标注语料与标准语料相差较大以及越南语依存句法分析模型仍存在学习不充分、参数特征利用率不高等问题。并且,通过数据分析发现英越两种语言词性标注与依存关系之间存在关联,因此,提出一种基于参数迁移的越南语依存句法分析方法。利用将从拥有丰富语料的英语训练模型中训练好的词性标注部分参数迁移到越南语依存句法分析的训练模型中继续训练,从而有效利用英语依存句法分析的词性标注特征,提升越南语依存句法分析的效果。实验结果表明所提方法能够使越南语依存句法分析模型有效利用英语训练模型中词性标注特征知识,在UAS和LAS评价指标上最高获得了1.6点的提升,有效提升了越南语依存句法分析的性能。(3)越南语依存句法分析原型系统的设计与实现。为了能够展示并利用越南语依存句法分析的结果,搭建基于python的越南语依存句法分析原型系统。采用基于参数迁移学习的越南语依存句法分析模型来对输入的越南语句子进行依存句法分析。将需要进行依存句法解析的越南语句子输入分析文本框中,之后系统对输入的越南语文本预先做断句和分词处理,再将处理好的越南语句子分句输入到迁移学习模型之中得到带有依存弧和依存关系的结果,最后将处理好的结果以图形化形式与文字化形式在页面中进行展示,达到原型系统图文展示越南语依存句法分析结果的目的。
其他文献
高压铸铝合金是实现结构轻量化最常用的轻质合金材料之一,其本构关系和断裂准则是结构安全性设计的关键。为了探索高压铸造铝合金ZTHJ01在准静态下的本构模型和断裂准则,设计了高压铸造铝合金标准拉伸、R5缺口拉伸、中心孔拉伸、平面剪切、蝴蝶剪切和三点弯曲六种实验样件,结合数字图像相关法(Digital Image Correction,DIC)开展了试验测试。根据对应力-应变曲线外推两种不同混合性硬化准
期刊
随着智慧电网的加速发展,大量光伏、风电等新型绿色能源已经并入电网,使得电网中的电流信号除了工频以外,还包括大量的直流、高次谐波、和高频暂态信号。而传统用于电网监测的电流传感器多为接触式电流互感器,具有频带较窄、容易产生谐振、无法对直流信号进行测量等问题,这就导致无法满足现目前的电网发展趋势。因此,对宽频电流的非接触传感技术研究迫在眉睫。本文设计了一种基于复合测量原理的宽频非接触电流传感器。该传感器
学位
三坐标测量机是一种通用的精密测量设备,现已在精密制造、航空航天等领域得到广泛应用,但传统的三坐标测量机体积大、价格贵且难以应用于工业现场。本文基于协作机器人体积小、工作空间大、灵活性高的特点,提出一种坐标测量机器人系统,构建了坐标测量机器人的软硬件系统;基于运动学标定提高机器人的精度,开发了基于视觉引导的自动测量功能。主要研究内容如下:(1)基于一种六自由度协作机器人本体构建了坐标测量机器人系统。
学位
伴随着节能减排要求的不断提高,轻量化设计已成为当前工程设计的一个重要趋势。电阻点焊操作简便、成本低、效率高、环境适用性好,通过电阻点焊连接高强度的钛与轻质材料镁不仅可以发挥两种材料优异性能,而且可以提升产品结构安全性和降低产品重量。点焊结构在循环载荷作用下,其失效最主要的方式为疲劳断裂,点焊结构的疲劳强度评估一直是行业中的难点与重点问题,因此有关异种材料电阻点焊接头疲劳特性研究显得尤为值得深入。本
学位
内燃机由于高度集成和高速运转特征,其摩擦损失约占系统总能量损耗的48%,特别是活塞-缸套之间的摩擦损耗占整个动力装备损耗的40%~55%。因此,提高摩擦副的润滑性能,实现摩擦磨损的主动干预,已成为内燃机可靠性研究的关键问题之一。诸多学者研究表明,在摩擦副接触表面使用表面微织构技术,可以极大提升摩擦副的润滑性能。因此,本文基于流体润滑理论,对凹坑型微织构减摩机理和影响润滑性能的各种因素进行研究,并搭
学位
神经机器翻译技术已经在生产生活中占有重要地位,尤其随着国家与国家的联系更加紧密,世界趋向整个经济体的今天,机器翻译有较强应用价值。然而神经机器翻译模型性能依赖于大量高质量平行语料随,因此某些低资源翻译语种对难以达到高资源语种对翻译效果。然而这些语种的翻译任务跟随经济发展的脚步发展的格外重要,例如着我国与东南亚国家的交流合作发展,语言壁垒成了急需克服的障碍,然而东南亚语言的翻译任务因为资源较少,可获
学位
机器翻译技术研究如何利用计算机将一种语言自动地转换为另一种语言,由于其有效性及便利性而得到持续的关注。近年来,随着深度学习技术的发展,神经机器翻译已经成为机器翻译技术的通用形式。尽管取得了一定的效果,神经机器翻译技术仍然存在表征不足,信息挖掘不充分等问题,特别是在数据缺乏的低资源情况下。本文针对神经机器翻译系统存在的以上问题,以文本粒度为划分依据,聚焦于词与词之间蕴含的句法信息和更大粒度的短语形式
学位
铁路运输作为交通运输行业的重要运输方式之一,为国家的经济发展做出了巨大贡献。随着高速有砟铁路列车行驶速度的不断提高以及载重量不断的增大,有砟道床不可避免的产生了一系列的病害问题,道砟的劣化是引起道床病害的因素之一。道砟形态特征的改变,使得道砟力学性能降低,从而引起道砟的劣化。然而,目前国内外关于道砟形态特征与道砟力学性能关联性的研究相对较少,并且也没有定量的研究两者之间的影响关系。因此对道砟的形状
学位
视频内容描述旨在用自然语言句子对视频的主要内容进行描述。该任务在提升视频检索质量,辅助人工审核视频,协助视障人士理解视频等方面有着广泛的应用前景。该任务的难点在于描述生成中,如何实现视觉和文本的跨模态语义对齐。因此,该任务有助于推动视觉和文本在语义对齐和协同表达方面的研究。现有工作主要基于时间注意力模型建立视觉和文本的语义对齐。虽然在一定程度上提升了视频描述的准确性,但仍然存在一些不足,包括1)对
学位
随着中国与东南亚国家经济合作的加深,中国积极开展对外交流合作的新闻报道逐渐增多,由于信息量巨大,导致越南人民不能准确地检索出所需要的中文新闻文本。面向中文新闻文本的越-汉跨语言检索技术可以快速的通过越南语查询检索出所需要的中文新闻文本,这对越南人民准确了解中国对外合作交流动态有重要意义。现有跨语言检索是将查询语言和检索语言对齐后通过相似度匹配进行排序,而在相似度计算中,受检索文本中相似语义信息的影
学位