基于特征强化和语境约束的隐式篇章关系识别方法研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:chenquanchenwen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
隐式篇章关系识别旨在根据可靠的论元语义表示和有效的关系分类特征,推断出两个论元之间的篇章关系。该任务由于缺少显式推理线索,通常需要借助上下文信息、论元中的关键信息以及论元之间的交互信息,获得可靠的论元语义表示,从而形成基于语义深度理解的关系识别方法。然而,现有关系识别模型在表征论元语义时仍然受制于如下三项挑战,包括1)论元片段不完整造成语义缺失;2)上下文噪声信息误导论元的语义编码;3)论元的关键信息难以提取。此外,研究发现,有效的分类特征有助于提高论元表征的语义区分度。然而,现有语料资源PDTB规模较小,其蕴含的分类特征难以挖掘。本文针对上述问题开展以下三个方面的研究:1)观察发现,现有论元的切分规则较为粗糙,导致部分论元出现语义缺失的问题。该问题对论元的语义理解和论元之间的信息交互过程均产生了负面影响。因此,本文研究一种基于多粒度的上下文的融合机制。该机制利用不同粒度的上下文信息,辅助模型对语义缺失的论元进行深度的语义理解。此外,为了缓解上下文噪声信息引起的不确定性,该方法建立了一种有效的关键信息提取模式,借以降低上下文干扰信息的负面影响。2)现有注意力机制在论元的关键信息提取中取得了一定进展。然而,相关实验结果显示,这些注意力机制的权重分布事实上处于一种“过稳定”状态(“过稳定”状态是指注意力权重在不同关键程度信息上区分度较低时呈现的一种分布状态)。该状态导致论元中关键词和非关键词在权重上的区分度较小,使得关键词信息很难在表征论元语义中发挥重要作用。因此,本文研究一种结合惩罚系数的损失重估方法,该方法基于权重分布的过稳定性计算惩罚系数,并将该系数整合到损失的计算中。进一步地,该方法借助损失的优化过程调整注意力机制中的训练参数,形成可辨识度较高的注意力权重分布,进而改善基于注意力表示学习的隐式篇章关系识别方法。3)精准的分类特征能够使得不同关系类别的论元表示具有较高的可区分性。然而,现有人工标注的语料规模有限,蕴含的语言学特征不充分,使得现有关系识别模型难以有效的学习到可靠的分类特征。为此,本文研究一种基于高困惑样本生成和对比学习的方法,其能够在样本标签不可观测的情况下,驱动关系识别模型学习到具有高区分度的分类特征。该方法利用无标签的训练样本自动构建正负例样本。特别地,样本构建的目标是产生“高困惑样本对”(“高困惑样本对”指在语义表示上难以区分的两个不同类别的样本)。在此基础上,本文将对比学习机制引入关系识别模型的训练过程,驱动模型对上述“高困惑样本对”进行强制的辨识和区分,促进不同类别的样本在语义空间中呈现更加规范的分布模式。本文借助上述方法,一定程度上促进现有关系识别模型对高辨识度分类特征的感知和表示,从而优化隐式篇章关系识别的方法对不同样本的辨识能力。本文研究了多粒度上下文融合、注意力损失重估以及对比学习三种方法,借以逐步缓解隐式篇章关系识别中论元片段语义不完整、关键信息提取困难以及分类特征不丰富的问题。本文集中在PDTBv2.0数据集上进行实验,实验结果证明,上述方法在关系识别模型上均产生了较为显著的性能优化。
其他文献
在“万众创新”的时代背景下,高新技术企业已成为国民经济增长新引擎。但在快速发展的同时,部分高新技术企业因短视的经营行为而陷入经营危机,因此我们应更多的关注企业长远的发展。创新是企业漫长生命周期中维持竞争力不可或缺的手段,管理者在创新活动中扮演着重要角色,是企业创新研发与投资方案的制定与决策者,企业可以设计合理的激励体系激发高管创新的主动性和积极性,高管薪酬粘性便是这样的一种薪酬制度安排,它会包容高
学位
城市地下管网是保障城市正常运行的重要基础设施和“生命线”,负责提供能量与信息流,但随着城市化进程的不断加快,使得城市地下管网的维护难度日益增加,维护工作不及时导致地下管网事故频发。近年来,物联网技术发展逐渐成熟,运用物联网技术推动智慧城市建设是新的发展方向。本文基于管网监测系统的研究现状,设计并实现了具备稳定性、低功耗和可维护性的管网数据监测系统。主要研究内容如下。(1)搭建管网监测系统的软硬件平
学位
对于自然语言处理领域中的机器翻译等跨语言任务,平行结构是训练神经网络来学习不同语言之间的映射关系的重要资源。除了现有的平行资源外,近年来很多研究者们都在尝试从单语语料中挖掘平行数据。目前,大多数研究集中于从单语语料中挖掘平行词对和平行句对,而由于平行短语对边界确定困难、单词形态复杂,所以从单语语料中挖掘平行短语对的研究非常稀少。因此,本文尝试利用多种方法,从单语语料中挖掘高质量的平行短语对,并探索
学位
本文的主要研究内容是不依靠平行语料的神经机器翻译系统的初始化研究,在不使用平行数据进行训练的方法中主要有无监督训练方法,它使用降噪自编码和反向翻译方法在单语语料上进行训练,而相关研究表明模型的初始参数往往对这类训练方法的最终效果有很大影响,错误的初始化可能会导致训练时产生太多噪声,从而会影响其最终性能。针对此问题,本文分别从真实词典监督,伪词典监督和元学习三个角度提出不同方法来提高初始化模型质量,
学位
产品质量和质保服务期限是两个重要且密切相关的业务决策。特别是耐用产品制造企业,在决定产品质量和质保期限时需要仔细权衡生产阶段的质量控制成本和销售阶段的质保服务成本,且不同的市场结构、产品价格以及竞争压力都会对企业决策产生影响。通过对国内外相关文献梳理,发现此类研究较少,本文利用博弈论和最优化理论研究方法,进行了以下几个方面的研究工作:首先,以垄断市场下企业捆绑销售质保产品给消费者为研究背景,考虑质
学位
地面沉降对城市发展以及人类生命财产安全有极大的危害,因此对地面进行沉降监测具有重大的现实意义。传统的监测方法费时费力、效率低、成本高,且不能实现大范围测量。时序InSAR技术具全天候、范围广、精度高及获取时间序列地表沉降等优点,逐渐成为城市地表监测的重要方法。本文利用两种不同的时序InSAR技术对杭州市和温州市的城市区域进行了地表形变监测,并对监测结果进行了验证分析,主要研究内容与成果如下:(1)
学位
报纸
面向多轮对话场景的省略恢复与指代消解任务是近年来自然语言处理领域的一项关键任务,其能够通过对缺省话语的补全消歧,获得更能表达完整语义信息的语句,以辅助推进对话进程,帮助对话系统正确地理解用户的意图。给予后续对话状态跟踪、对话回应生成、对话自动摘要等下游任务以强有力的基础支撑。近年来,随着深度学习技术在自然语言处理领域的兴起和发展,多轮对话省略恢复与指代消解研究也不可避免地受到了这波浪潮的冲击。本文
学位
随着屏幕时代的到来,人们对电子产品形成不同程度的依赖,加上空气污染与空调等外界环境因素的对泪膜稳定性的影响,干眼症已成为全球流行性眼部疾病。作为一种多病因的综合性疾病,干眼症检测过程复杂成本高,亟需更加便捷精准的诊断方式。然而相关研究表明深度学习技术在干眼症检测领域的研究与应用相对较少,因此本文就深度学习在干眼症检测领域进行研究,具体包括如下内容:(1)针对睑板腺人工标注数据量限制的问题,本文提出
学位
对比研究了喷丸和喷丸与振动光饰复合处理对GH4169高温合金疲劳性能的影响,利用扫描电子显微镜、粗糙度仪、显微硬度计、X射线应力测试仪分析和测试了试样的表面形貌、表层组织、粗糙度、显微硬度、残余应力场,探讨了表面完整性与疲劳性能的内在联系及作用机制。结果表明:复合处理对GH4169高温合金疲劳性能的改善效果比单独喷丸强化处理更好;复合处理使GH4169高温合金的室温疲劳强度提高了21.6%;500
期刊