基于树形条件随机场的高阶句法分析

来源 :苏州大学 | 被引量 : 1次 | 上传用户:waugh9071
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
句法分析任务是句子理解的重要中间过程之一.其中,概率估计一直是句法分析领域的一个核心问题.然而,无论是神经网络方法还是深度学习时代以前的方法,采用基于全局概率模型的句法分析工作都非常少,主要的原因在于树形条件随机场(TreeCRF)推断的高复杂度.在本文中,我们提出将TreeCRF应用到依存句法和成分句法这两个主要的句法分析任务.为了解决TreeCRF的低效问题,关键的想法是批次化树结构的推断算法,并且用基于自动求导的反向传播代替Outside算法.目前句法模型被不断简化,采用局部损失目标是当前句法分析方法的一个趋势,我们则进一步在一阶TreeCRF的基础上采用了高阶拓展.高阶TreeCRF进一步增加了算法复杂度,为此,我们还提出利用基于平均场变分推断的近似推断算法代替精确推断的TreeCRF方法,从而增加了解析效率.具体而言,本文的研究内容主要包含三个方面:(1)基于TreeCRF的高阶依存句法分析方法本文提出将TreeCRF方法应用到神经依存句法分析器当中,并进一步提出了一个二阶TreeCRF的扩展.导致TreeCRF低效的主要瓶颈在于Inside-Outside算法,尤其是Outside算法的计算.为了解决这个问题,一方面,我们提出对Inside算法进行批次化,从而利用GPU的并行计算能力来加速,将算法复杂度从O(n3)降低到了 O(n2).另一方面,我们还提出将复杂的Outside算法用高效的反向传播代替,显著提升了效率,使得一阶和二阶模型的速度分别达到了 500和400句每秒.我们在13个语言的27个数据集上进行了详细实验,结果表明了 TreeCRF和高阶建模的有效性.(2)基于TreeCRF的高阶成分句法分析方法本文提出将高阶TreeCRF应用到成分句法分析中.为了解决效率问题,我们应用了和依存模型中一致的批次化技术和反向传播来加速.此外,我们提出一个简单的两阶段解析方法,和前人的一阶段解析相比结果相当,但是更加高效.我们还参考了依存句法的模型架构和参数设置,提出用双仿射打分机制替换传统打分方法,发现在双向LSTM编码器中引入的诸如Dropout的策略改进可以极大提升解析的性能.在中英文三个基准数据集上的实验结果表明,我们提出的模型结果显著超越了现有方法,并且一阶和二阶模型的速度分别达到了 1,092和598句每秒.我们的模型在使用BERT之后达到了现有最好的结果.(3)基于变分推断的高效句法分析方法为了解决精确推断的TreeCRF方法高复杂度的问题,本文提出在依存句法和成分句法分析中引入基于平均场变分推断的近似方法.相比于高阶TreeCRF方法,变分推断将算法在GPU上的复杂度从O(n2)降低到了 O(n),大大提升了模型效率.在中英文共五个数据集上的实验结果表明,我们的二阶变分推断方法在性能上显著超越了一阶模型,达到了和二阶TreeCRF模型可比较的水平,与此同时在依存句法和成分句法上的解析速度分别达到了 1,126句每秒和905句每秒,大大超越了精确推断的二阶TreeCRF.此外,使用BERT之后,我们的变分推断方法的结果达到或接近了现有的最佳结果.综上,我们在依存和成分句法这两种句法分析任务上提出应用TreeCRF以及一个二阶TreeCRF拓展,显著提升了句法分析器的性能.我们采用批次化以及反向传播等加速技术,解决了 TreeCRF的效率问题.本文同样还探究了变分法等近似方法对解析效率的影响.我们发现变分法在保持高阶模型的性能的同时,大大加快了解析速度.
其他文献
报纸
<正>一、短视频文化背景与特征分析(一)短视频所处的文化背景随着微博、微信等新型传播方式的普及,中国传媒进入了微时代。微时代,顾名思义,就是与传统的长篇大论相对应的,以微小、简洁为主要特征的信息传播时代。微时代传媒通过数字通信,运用文字、图像、音频、视频等多种方式,依靠新型便捷的移动终端显示,以实时、高效、互动为主要特点进行传播活动。微时代信息传播速度更快,传播内容更具冲击力和震撼力。短视频正是微
期刊
由于市场经济发展程度的深化以及新冠疫情对全球经济的冲击,用人单位破产或解散的情形在近两年较为常见,这些情形将导致用人单位灭失的法律后果。《劳动合同法》第四十四条第(四)项和第(五)项规定用人单位灭失的,应当与劳动者终止劳动合同,这会直接导致大量劳动者失去就业机会,陷入生活困顿,进而影响社会和谐稳定。由于立法上劳动合同终止制度的规定本身较为薄弱,从而造成法律实施困难重重,使得法官和仲裁员在实践中无所
学位
第一部分 婴幼儿毛细支气管炎临床特征分析目的:分析苏州地区毛细支气管炎住院患儿临床特征及实验室结果特点,探讨中-重症毛细支气管炎的危险因素,提高临床医师对婴幼儿毛细支气管炎的认识,为其诊疗提供参考依据。方法:回顾收集2018年1月至2019年12月,苏州大学附属儿童医院呼吸科566例确诊毛细支气管炎住院患儿的临床资料,并将患儿分为轻症组(n=381)和中-重症组(n=185),对症状、体征、一般情
学位
最高人民法院在2019年对《关于民事诉讼证据的若干规定》(以下简称“民事证据规定”)进行了修订,新增第7条附条件自认制度的相关规定。对于附条件自认的情形法院应该如何裁判,该条认为,附条件自认成立与否应由法官在案件具体情况的基础上进行判断,契合了我国台湾地区在立法上的观点。从附条件自认的理论研究与司法实践现状来看,虽然该制度普遍存在,但是我国学者以及相关立法研究中对此给予的关注较少,其背后所蕴含的理
学位
报纸
报纸
短视频的出现,使得文化使用者的媒介实践具有“使用者”意义。乡村青年群体以自身视角表达地方文化,进行地方文化传播实践,不仅是媒介使用者的内容生产,更是文化传承的主体性建构。本文认为,地方文化空间的视觉逻辑是使文化空间与媒介空间有效转换与可见的关键因素。
期刊
报纸
补正履行请求权是原履行请求权的继续,性质上属于原给付请求权。《德国民法典》和《日本民法典》等,继受罗马法,经过了买卖物瑕疵之补正履行付之阙如,到如今直接赋予了买受人的补正履行请求权两个阶段。我国《民法典》第582条将瑕疵担保责任统合入违约责任,补正履行请求权制度基础是无瑕疵之物的履行请求权,出卖人给付之标的物有瑕疵,买受人得请求补正。我国补正履行选择权采“债权人选择权模式”,补正履行之选择权之性质
学位