半监督汉语依存句法分析领域移植研究

来源 :苏州大学 | 被引量 : 1次 | 上传用户:guoaiet
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,得益于深度学习技术的发展,依存句法分析在精度和效率上均取得了很大的进步。目前依存句法分析面临的主要挑战是领域移植问题,即当测试文本和训练数据文本在风格、类型、主题上差异较大时,分析准确率会显著下降。尤其是互联网上用户生成内容(User Generated Content)的比例越来越大,这些数据与规范新闻文本差异很大,句法分析的准确率非常低,严重阻碍了句法分析技术在实际系统中的应用。由于缺乏较大规模的多领域标注数据,现有的依存句法分析领域移植工作多集中在无监督方法的研究,即训练数据中不包括目标领域(测试文本所属领域)标注数据,无监督领域移植非常困难,多年来进展缓慢。本文在训练时使用源领域和目标领域标注数据,重点研究半监督依存句法分析领域移植方法。首先,构建了一个大规模多领域汉语开放依存句法树库;进而,基于该树库,提出并比较了几种半监督领域移植方法;最后,探讨了如何利用大规模的无标注数据提升领域移植性能。(1)汉语依存句法数据标注规范制定以及树库构建构建依存句法树库需要依存句法数据标注规范作为理论基础。现有的依存句法数据标注规范仅考虑到通用文本的标注,对非规范文本中的一些语言现象却覆盖较少。因此,本文首先制定了一个覆盖不同语言现象的汉语依存句法数据标注规范,以指导树库构建工作。在构建树库时,为了控制数据的标注质量,本文制定了严格的双人标注流程,并从准确率、一致性两方面详细分析标注完成的数据,及时改进标注工作中存在的不足。另外,为了节省数据标注成本,同时保证树库的质量,本文采取了局部标注方法,仅选取句子中标注难度最高的一部分词语进行人工标注。我们将该树库命名为汉语开放依存句法树库(Chinese Open Dependency Treebank,CODT),日前的树库覆盖了 11个领域的文本,共包含约13万个句子。(2)基于领域嵌入的依存句法分析领域移植本文基于构建的汉语开放依存句法树库,重点研究半监督领域移植方法。半监督方法的关键任务是如何充分从源领域与目标领域训练数据中提取特征。本文提出了领域嵌入方法,该方法为每个输入词语添加了额外的领域信息,使模型既可以学习两个领域的通用特征,同时又可以区分领域之间的差异。进一步,本文将所提领域嵌入方法应用到多源依存句法领域移植分析问题,即额外利用其它目标领域的训练数据提升特定目标领域的分析性能。实验结果表明:1)本文提出的领域嵌入方法比其他基准方法更有效;2)当目标领域与特定源领域之间的差异较小时,增加该源领域的数据可以提高模型性能,反之则会对模型产生干扰。此外,由于源领域与目标领域的训练数据规模差异较大,本文在实验过程中使用了语料库加权策略。在每次迭代时,控制源领域与目标领域训练数据的比例,防止目标领域被源领域淹没。实验结果表明,选择不同的训练数据比例对分析性能影响较大。(3)基于语言模型微调的依存句法分析领域移植上一章内容仅通过标注数据研究半监督领域移植方法,但由于数据标注工作非常复杂且成本较高,如何利用大规模无标注数据也是领域移植研究的重要方向之一。近年来,上下文相关语言模型迅速发展,已经帮助了很多数据驱动的自然语言处理任务。本文通过直接训练和微调上下文相关语言模型(ELMo和BERT)从大规模无标注数据中提取特征,实验结果表明:1)利用通用ELMo和BERT模型可以帮助依存句法分析领域移植性能取得大幅度的提升;2)与传统的通过自训练方法使用无标注数据相比,利用ELMo、BERT从大规模无标注数据中提取特征更加有效。我们在分析实验结果时发现不同的目标领域训练数据规模对模型分析性能有较大的影响,本文通过实验讨论了在领域移植工作中,使用多少目标领域训练数据最为合适,对以后的数据标注和领域移植工作均有借鉴意义。另外,为了将构建的汉语开放依存句法树库提供给更多的研究者使用,我们举办了依存句法分析领域移植评测。本文汇报了参赛者的实验结果,并总结了参赛者使用的实验方法。综上,本文首先构建了一个高质量的汉语依存句法树库,进而,基于该树库,研究半监督依存句法分析领域移植方法。我们希望这些初步的成果能够为依存句法分析领域移植任务的发展提供帮助。
其他文献
氮化铝(AlN)是一种重要的Ⅲ-Ⅴ族直接带隙半导体材料,广泛应用于多种器件中。AlN薄膜具有宽带隙、高温稳定性等特点,可作为紫外光电探测器的敏感材料,也可作为紫外发光二极管的
灯具是人们生活和工作中不可或缺的照明工具。随着生活水平的不断提高,人们对灯具提出了越来越高的要求,智能灯具应运而生。虽然目前人们可以在市场上找到许多具有手机APP远
太极拳是众多武术拳种中的一种,其行云流水、深绵不息的气势,松缓自然、空灵睿智的神韵,以及老少皆可练习的运动方式,深受大众喜爱。因其具有的技击攻防、健身、养生价值,而
集成调度是调度领域重要的分支之一。现有关于生产与运输集成调度的研究往往忽略库存因素的影响,而实际生产中,在产品加工完成没有立刻运输则需要存入仓库,因此库存也直接影
心电信号(Electrocardiogram,ECG)是心血管疾病临床诊断的重要依据之一。近年来,随着移动医疗和可穿戴技术的发展,低功耗、小体积、易采集的单导联ECG信号采集设备逐渐占领市
衍射光栅作为一种核心光学器件,在光谱分析、太阳能电池、石油化工和公共安全等领域都有重要应用。目前,传统的光栅制备工艺存在成本高、灵活度低和工艺繁琐等缺点。作为一项
目的:本研究旨在通过观察填精益髓法干预治疗肝肾亏虚型HBV相关性肝硬化(代偿期)患者第0、12、24周的FibroScan硬度值、肝功能以及血常规的变化,以及第0、24周中医症候评分、超声半定量评分计分的变化,并评估其临床总疗效的差别,探讨填精益髓法治疗HBV相关肝硬化的科学性,为中医药治疗HBV相关性肝硬化提供新思路。方法:本课题拟采用随机对照研究的研究方法,将2017年9月至2018年9月期间
随着科学技术的发展,自主式水下航行器(AUV)的相关技术研究受到了越来越多的关注。历年来,对水下航行器的研究与开发主要集中在材料、电力系统、导航与定位系统、水下通信技
人体姿态估计和行为识别是计算机视觉的热门研究领域,在老年人看护、医疗康复、动漫游戏制作、运动医学研究、安防监控、工厂人机协同等方面有重要的应用价值。人体骨架坐标
在以人工智能作为国家发展战略技术的驱动下,作为人工智能产业中自然语言处理领域的典型应用,闲聊式的人机对话一直是评价智能化进程的重要标准。本文面向开放领域的对话场景