依存句法分析领域移植研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:ny341
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
依存句法分析通过依存树来刻画输入句子中词语之间存在的语法和语义信息。依存树是由输入词组成的树状结构,其中从核心词到修饰词的有向边为依存弧,弧上的标签为依存关系类型。依存句法分析作为一项自然语言处理的基础任务,由于其表现形式简单、易于理解,受到了许多研究者的关注。依存句法分析的结果不仅可以促进自然语言处理任务的发展,如分词、语义角色标注等;也可以为其他人工智能任务提供支撑,如机器翻译、信息检索等。近年来,有监督的依存句法分析模型在效率和精度上都有了明显提升。然而,训练一个高质量的依存句法分析模型往往依赖于大规模的领域内带标签数据。一旦训练数据的领域发生改变,分析精度就会显著下降。主要原因是来自不同领域的训练数据在词法、句法和语义上的改变导致模型难以捕捉不同领域特征分布之间的共性和差异。因此,如何有效地建模领域不变特征和领域特定特征成为依存句法分析领域移植的一个重要挑战。针对这个问题,本文首先尝试构建依存句法分析模型,为后面的领域移植研究奠定基础;然后,本文提出两种新的方法从两个方面解决少样本依存句法分析领域移植问题,其中基于改进上下文词表示的方法更多地关注如何增强模型提取领域不变特征的能力,而基于动态特征迁移的方法则重点挖掘领域特定表示之间的关联;最后,本文提出对抗和参数生成网络模型解决零样本依存句法分析领域移植问题,该模型可同时完成领域不变表示的提取以及多个领域特定表示的融合。1.构建依存句法分析基准模型,为后续领域移植研究提供支撑。目前广泛使用的句法分析方法采用双向长短时记忆网络对输入句子进行编码。受前人工作的启发,本文首次成功地将自注意力编码方式应用于依存句法分析任务中,并在中英文基准数据集上取得了可比的实验结果。接着,通过深入对比分析,我们发现模型集成可以有效融合这两种编码方式的优势,从而进一步提升依存句法分析性能。最后,本文利用最近提出的深度上下文相关表示作为额外的输入特征,取得了新的最佳实验结果。2.提出领域感知的词表示方法,缓解词法改变对少样本依存句法分析领域移植模型造成的干扰。在这个工作中,本文提出通过对抗学习和微调BERT来获取领域感知词表示。首先,本文将对抗学习应用于参数共享、特征扩展和领域嵌入这三种典型的少样本领域移植方法,并使用融合目标领域词表示和正交性约束这两种策略建模更加纯粹且有效的领域不变表示。同时,本文利用大量目标领域无标签数据对BERT模型进行微调,获得领域相关的上下文词表示。在基准数据集上的实验表明本文提出的对抗模型取得了比非对抗模型更好的结果,微调BERT可以进一步大幅度提高跨领域依存句法分析的精度。3.提出基于动态特征匹配的共享-私有模型,缓解句法改变造成的少样本依存句法分析性能下降的问题。上一个工作更多的关注了领域公共信息的提取,而忽略了领域特定表示之间的关联。为了解决这个问题,本文设计了简单而有效的动态匹配网络让模型从源领域中自动筛选有效信息,提高目标领域句法分析性能。具体来说,动态匹配网络可以通过模仿经过充分训练的源领域特征自动学习合适的匹配权重,该权重有助于模型强调对目标领域有用的源领域知识并过滤无效甚至有害的信息。此外,本文设计一种新的训练策略来提高匹配网络的能力。实验结果表明本文提出的模型始终优于各种基准模型,并在所有领域都取得了新的最好结果。4.提出对抗与参数生成网络,通过多领域特征融合提高零样本依存句法分析的精度。在这个工作中,本文提出一种新的模型用于零样本依存句法分析。该模型主要包含两个模块,分别为用于区分领域特定表示的参数生成网络和用于学习领域不变表示的对抗网络。实验结果显示本文的模型能显著提升零样本依存句法分析领域移植的性能。针对不同领域表示策略的分析实验证明了本文设计的分布式领域嵌入表示可以准确捕捉领域之间的关系,有利于模型学习对目标领域有用的信息。综上,本文深入研究了依存句法分析基准模型构建、少样本依存句法分析领域移植和零样本依存句法分析领域移植等问题。我们期待这些研究成果能够进一步促进面向其他任务领域移植的发展。
其他文献
近年来,基于序列到序列的神经机器翻译取得长足进步,译文质量不断提升,逐渐成为一种新的机器翻译研究范式。神经机器翻译不仅得到学术界的广泛关注,成为自然语言处理领域的研究热点,同时各大公司依靠神经机器翻译方法,提供各式机器翻译服务。然而,实践表明现有神经机器翻译方法仍然存在一系列不足之处,其中词汇级翻译忠实度不高是广泛存在的严重问题。本文从语言学角度对神经机器翻译中存在的词汇级翻译忠实度问题进行了系统
学位
孤独症谱系障碍(Autism spectrum disorder,ASD)是一类神经发育障碍性疾病,其核心症状是社交沟通障碍、重复和异常的感觉-运动行为及兴趣或活动范围狭窄,具有很强的遗传性。亚洲ASD的患病率估计为0.36%。ASD可持续一生,严重影响患者生存质量,对家庭和社会造成了巨大的经济和社会负担。世界卫生组织指出因ASD造成的全球负担还在持续增长。遗传因素和环境因素在ASD的发生中都起着
学位
第一部分CLEC5A对心肌梗死小鼠的影响目的:本部分研究探讨CLEC5A对小鼠心肌梗死(myocardial infarction,MI)的影响。方法:将 C57BL/6 小鼠随机分为 4 组:Sham、MI、MI+Ad-NC、MI+Ad-sh-CLEC5A,每组 6 只。将每只小鼠麻醉固定后,打开胸腔,结扎冠状动脉左前降支。Sham组只开胸不结扎。MI+Ad-NC、MI+Ad-sh-CLEC5A
学位
第一部分大鼠脑出血后脑组织中BMAL1蛋白表达的变化目的探讨脑出血(Intracerebral hemorrhage,ICH)模型大鼠脑组织中脑和肌肉类Arnt样蛋白1(Brain and muscle Arnt-like protein 1,BMAL1)蛋白昼夜表达变化以及脑出血后不同时间点的表达变化。方法1.实验设计和分组:(1)将健康雄性Sprague-Dawley(SD)大鼠随机分为Sha
学位
随着人工智能时代的来临,柔性电子皮肤和可穿戴设备引起了人们的广泛关注。压电聚合物因既具有柔性又具有良好的压电性而成为制备柔性压电传感器的关键材料之一。然而,目前压电聚合物的综合性能尚无法满足制备柔性电子皮肤和可穿戴设备的要求。发展压电聚合物复合材料的高效制备方法,深入理解压电聚合物复合材料的构效关系,有效提升它们的综合性能已经成为化学和物理领域的重要研究课题。本文主要利用分子间氢键相互作用制备了两
学位
第一部分阿霉素抑制骨髓间充质干细胞增殖及成骨分化机制的研究目的:临床证据表明,阿霉素(DOX)作为一种化疗药物,可引起癌症患者严重的骨骼损伤。本研究采用不同浓度的阿霉素(0~50nM)处理骨髓间充质干细胞,阐明阿霉素对骨髓间充质干细胞增殖及成骨分化的影响,并探讨阿霉素对其成骨能力影响的分子机制。方法:在无菌条件下收集SD大鼠(6~8周)股骨中的全骨髓细胞,采用全贴壁法分离纯化骨髓间充质干细胞,并对
学位
目的:骨癌痛(bone cancer pain,BCP)是恶性肿瘤转移至骨骼后引起的慢性疼痛,是肿瘤晚期患者最常见的临床症状之一。BCP的发生机制目前尚未阐明,在临床上缺乏有效的治疗手段。近年来的研究表明,长链非编码RNA(long noncoding RNA,lncRNA)可以发挥多种重要的生物学功能。本研究旨在探讨BCP大鼠脊髓中lncRNANONRATT009773.2在疼痛产生中的作用和分
学位
第一部分:十字形皮瓣在先天性并指畸形中的应用第一节指蹼的测量和重建指蹼的十字形皮瓣的设计目的:通过测量正常人群手指和指蹼相关数据,创新性设计掌背十字形皮瓣用于并指分指后指蹼重建。方法:随机抽取小儿骨科住院14岁以下患儿,排除患手。采用刻度软尺在指蹼最远端水平测量健手示、环、小指近节直径L1,测量相邻掌骨头顶点距离L2,再分别测量指蹼最远端至掌骨头顶点连线的皮肤距离L3。测量结果应用SPSS19.0
学位
视神经脊髓炎谱系疾病(neuromyelitis optica spectrum disorders,NMOSD)是一组以视神经和脊髓受累为主的中枢神经系统炎症性脱髓鞘疾病,平均年复发率较高,疾病的反复复发和累积损害常可导致永久性失明或肢体瘫痪。缓解期的序贯治疗是减少NMOSD复发及阻止残疾进展的主要方法。利妥昔单抗(rituximab,RTX)通过删除外周循环中的B细胞可减少NMOSD的复发。诸
学位
钛基材料是最常用的生物医用金属材料,但钛材料具有生物惰性,植入骨组织后常导致钛-骨界面成骨能力弱,组织纤维化,尤其是疏松的骨组织,钛植入物易发生无菌性松动等。如何将钛材料惰性表面改性成生物活性表面,促钛植入物骨整合是生物材料研究的热点。贻贝仿生多肽改性钛材料表面是一种简便、高效的方法,通过一步浸泡法即可将携带生物活性大分子的仿生多肽接枝到钛材料表面,形成生物活性表面,发挥生物活性分子的促骨整合作用
学位