中文微观篇章分析方法研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:flnlucifer
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,自然语言处理领域的研究重心逐渐从分析文本中的字、词和句,转移到段落和篇章的分析研究。篇章分析是自然语言理解的重要基础之一,受到越来越多研究者的关注。篇章分析通常包含了三个子任务:1)篇章结构构建,用于构建篇章的结构框架;2)篇章主次识别,用于识别论元之间的主次核性关系;3)篇章关系识别,用于识别论元之间的语义逻辑关系。通过篇章分析构建完整篇章结构树能帮助机器理解文章的语义脉络。目前,中文篇章分析主要聚焦于微观层面的研究(即中文微观篇章分析),是对一个段落内的子句或句子间的结构关系和语义关系进行识别。英文篇章分析相关研究已取得较好的进展,而中文微观篇章分析研究还处于起步阶段。因此,本文针对中文微观篇章分析中的三个子任务分别展开深入研究,主要研究内容包括以下三个方面:(1)微观篇章结构构建方法研究在研究现有微观篇章结构构建方法的基础上,针对采用Shift-Reduce算法在构建篇章结构时存在错误累计及连接词不利影响问题,本文提出结合张量转换网络,采用多阶段策略及句内连接词删除机制构建篇章结构。首先,结合双向长短时记忆网络和注意力机制对论元编码,采用张量转换网络捕获论元之间的语义联系;其次,针对Shift-Reduce算法错误累计问题,提出先构建句内子树,再构建句间结构树的多阶段策略;最后,针对显式连接词对Shift-Reduce动作预测影响较大问题,提出句内连接词删除机制。实验结果表明,本文提出的方法性能较基准系统有明显提升。(2)微观篇章主次识别方法研究在研究现有微观篇章主次识别方法的基础上,针对现有模型易将语义相似度较高的非多核关系误识别为多核关系和偏向于将更长的论元识别为核心论元的问题,本文提出采用门控记忆网络进行篇章主次识别。首先,通过双向长短时记忆网络捕获论元的全局依赖信息,通过卷积神经网络捕获论元的局部n-gram信息,对论元进行编码;其次,融合两个论元信息并通过sigmoid函数计算得到一个门控单元;最后,使用该门控单元捕获各个论元相对于整体信息来说更重要的特征表示,从而识别出核心论元。实验结果表明,本文提出的门控记忆网络模型性能超过了多个基准模型。(3)微观隐式篇章关系识别方法研究中文微观篇章关系识别就是识别论元之间的语义逻辑关系。微观显式篇章关系识别已经达到了较好的准确率,但对于隐式关系的识别一直是一个难点任务。本文针对中文隐式篇章关系样本少,易造成过拟合的问题,提出了一个结合主动学习和多任务学习来间接扩充隐式篇章关系训练数据的隐式篇章关系识别方法,旨在增强训练数据的同时尽量少引入伪隐式篇章关系数据中的噪声。首先,基于BERT模型,使用主动学习方法利用分类不确定性来选择部分显式篇章关系样本;然后,移除显式篇章关系样本中的显式连接词作为伪隐式篇章关系样本;最后,采用多任务学习方法使伪隐式篇章关系数据有助于隐式篇章关系识别。实验结果表明,本文提出的方法性能优于多个基准模型。本文针对中文微观篇章分析的三个子任务——篇章结构构建、篇章主次识别和隐式篇章关系识别,分别提出了不同的有效解决方法,并取得了较好的性能,为进一步研究中文微观篇章分析打下基础。
其他文献
现代科学领域,对微位移和微振动的要求不断提高,迫切的需要微米级,甚至纳米级的精度。压电陶瓷材料,因为具有响应速度快、控制精度高、成本低等优点,近年来得到了广泛的应用。然而,其本身具有严重的率相关迟滞非线性特性,使得对其建模和控制困难。本文以压电作动器为控制对象,利用迟滞非线性系统中的系统重复性,设计迭代学习控制器来进行迟滞补偿以实现纳米级高精密跟踪控制。文章从迟滞非线性系统建模、迭代学习控制策略设
近年来,二维材料由于其优异的电学和光学性能,引起了广泛的关注。二维材料的研究对象极其丰富,包括石墨烯、黑磷、六方氮化硼、过渡金属二硫化物和拓扑绝缘体等。利用这些二
得益于人类的视觉注意机制(Visual Attention Mechanism,VAM),当人眼观看日常生活中的图像数据时,往往能够快速聚焦于场景中令人感兴趣的区域。如果让计算机像人类一样能够快
为了改善柴油机的高原适应性,利用可调二级增压系统代替原单级增压系统,并对多个海拔下的外特性进行了标定,但受限于试验条件,大多数工况点下的动力性还有一定的提升空间。本
19世纪80年代末,股权激励作为现代企业的长效管理手段在西方国家得到应用,在解决委托代理矛盾方面得到了较好的反响。与此相比,我国对股权激励的理论研究和具体实践都稍显落后。我国在2005年才正式出台股权激励的相关文件,此后民营企业中掀起了股权激励的浪潮,并且在实践中证明股权激励不仅能够解决所有者和控制人之间的矛盾,还能够对企业的各个方面产生积极的效益。本文以委托代理理论、人力资本理论和激励理论作为理
AMOLED(主动矩阵有机发光二极管)显示器作为当前显示技术的主流发展方向之一,具有色域广、厚度小、功耗低、亮度高、可制作柔性屏等优点。同时随着显示需求的提升,AMOLED显示
混合炸药是由单质炸药和添加剂按适当比例混合加工而成的,它的发展弥补了单质炸药性能上的不足,扩大了炸药的应用范围。作为混合炸药中的一个重要组分,钝感剂与炸药粒子间的界面作用对炸药的安全性能、力学性能等具有重要的影响。石蜡是一种常用的钝感剂,易滑移,可以缓冲炸药的冲击能量,从而起到钝感作用。在前期的研究中,本项目组采用石蜡作为钝感剂,制备获得了六硝基六氮杂异伍兹烷(HNIW)压装混合炸药,得到了良好的
随着国家现代化建设的稳步推进和社会经济的高速增长,传统的有线网络由于其特有的物理特性,渐渐无法满足人们对通讯方式更加方便、传输速度更加快捷、网络接入更加灵活、架设
近年来,蒙西镇的乡村产业发展初具规模,但是与国家倡导的质量兴农、品牌强农等要求之间还存在很大的差距。乡镇干部领导力是蒙西镇的乡村产业发展中的关键因素。本研究分析当
二氧化钒(VO2)在相变温度(68℃)附近会发生单斜结构(M)到金红石结构(R)的可逆转变,并伴随着电学和光学性质的突变,因此在光电开关、智能窗户、微测辐射热计及传感器领域有很大的商业