联合依存分析的汉语语义组合计算

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:mllx03
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语义组合计算是将词语语义组合成句子语义的过程,是获取句子语义表示的主要技术之一,广泛应用于情感分析、机器翻译、句子匹配等自然语言处理任务。语义组合性原理表明句子语义是由词汇语义根据句法结构组合得来的,因此语义组合计算与词义和句法紧密关联。目前,大多数研究主要关注对词汇语义表示的改进,少数研究开始关注对句法结构信息的利用。但这些结构化方法仍存在如下问题:(1)目前汉语依存分析在长距离依存关系上的分析精度还需要提升,以支持语义组合计算;(2)使用外部分析器,只能利用其提供的句法结构树的信息;同时,由于句法分析模型与语义组合模型的训练数据领域通常不同,会导致句法分析模型在应用于语义组合计算时精度的下降。针对上述问题,我们提出联合依存分析的汉语语义组合计算。本文首先提出自顶向下的汉语一体化依存分析模型,强化全局信息的利用,提升汉语依存分析的精度。然后在此基础上,本文构建联合依存分析的语义组合计算模型,提出依存分析中间信息的利用方法,提升语义组合模型的鲁棒性;并对依存分析和语义组合模型进行协同优化,降低数据领域不一致带来的影响。本文的主要工作和贡献总结如下:(1)构建自顶向下的汉语一体化依存模型。现有一体化依存分析模型主要采用Shift-Reduce分析算法,每一步仅对相邻节点进行转移动作的决策,难以充分利用句子的全局信息,在长距离依存分析上尚有提升空间。针对这一问题,本文提出自顶向下的依存分析模型,以Encoder-Decoder模型为框架,使用注意力机制进行依存节点的预测,在所有候选节点中选择最优节点进行依存关系的构建,提升了全局信息的利用效率。在公开数据集CTB5(Penn Chinese Treebank 5.0)上的实验结果显示,本文所提方法在汉语分词、词性标注和依存分析任务上的性能明显超过现有使用Shift-Reduce算法的模型,F1值分别达到了98.25%(+0.01%)、95.13%(+0.64%)和85.44%(+3.79%)。我们设计实验验证了在长距离依存分析上的有效性。(2)提出联合依存分析的汉语语义组合计算模型。针对现有结构化语义组合方法存在的问题,我们在(1)的基础上,提出联合依存分析的语义组合计算模型。本文首先提出基于注意力的语义组合模型,以依存句法树作为图注意力计算中的图,对每个节点的语义根据其孩子节点进行组合计算;然后提出依存分析中间信息的利用方法,将依存关系中作为头节点的语义信息引入语义组合模型,以降低依存分析的预测错误对语义组合模型带来的影响,提升语义组合模型的鲁棒性;最后通过依存分析与语义组合的联合学习,对依存分析模型进行领域自适应,提升依存分析模型的鲁棒性。我们将语义组合模型用于复述识别任务,在汉语复述识别数据集LCQMC上的实验结果显示,本文所提方法在复述识别任务上的预测正确率和F1值上分别达到76.81%和78.03%;我们进一步设计实验对联合学习和中间信息利用的有效性进行验证,并与代表性工作进行对比和分析。综上所述,本文针对现有汉语一体化依存分析和语义组合计算方法存在的问题,提出了自顶向下的汉语一体化依存分析算法,构建了联合依存分析的汉语语义组合模型,并在公开数据集上进行实验对比和分析,验证了所提方法的有效性。
其他文献
近年来在生物、材料化学、食品安全与医学研究等领域,用高品质高通量的双乳微液滴、囊泡、胶囊具有非常广泛的应用背景。由于传统的双乳液滴的制备方法是通过混合搅拌产生的
在大规模制造产业中,设备的可靠稳定运行是企业生存的基础。制定合理有效的维护策略成为了保障企业持续生存运营的重要举措。现有的维护策略研究大多以设备的功能可靠度为中
邻氨基苯酚是许多天然化合物、科学材料、医药分子等的合成中间体,尤其在医药领域的应用备受关注。传统的制备方法反应步骤繁琐、选择性差、产率低。随着金属有机化学的发展,
构筑高效光催化体系对于治理环境污染、缓解能源危机具有重要意义。在各种半导体材料中,BiVO_4因其丰富的原料来源、合适的禁带宽度(2.4 eV)、较正的价带位(2.43 V vs.NHE)等特点在光催化降解有机物及光解水产氧领域受到广泛关注。然而纯BiVO_4中,光生载流子极易发生复合,且光生电子因导带位较正(0.03 V vs.NHE)而表现出较差的还原能力,这些都限制了其在光催化领域的实际应用
螺环氧化吲哚结构广泛存在于很多天然产物和生物活性物质中,是许多天然产物,合成化合物和临床药物的核心组成部分。尤其是,手性螺吡咯烷氧化吲哚具有的抗癌、抗菌、抗病毒和
封闭式复合材料桅杆因其卓越的隐身性能在舰船上的应用越来越多。在舰船的航行中,封闭式桅杆会受到风载、桅杆自身结构重量、仪器设备重量以及船舶横摇(纵摇)的作用。为了确保桅杆正常工作,需要保证桅杆具有足够的强度和稳定性。然而,由于复合材料的各向异性、力学性质在空间上的不连续等因素,复合材料结构的失效模式较钢结构更加复杂。这些问题给封闭式复合材料桅杆的结构设计带来了挑战。本文以封闭式夹芯复合材料桅杆为研究
工业生产中往往会产生大量热量,为保证产品和生产设备的安全运行,需采用冷却介质带走生产中产的部分热量,冷却塔就是冷却循环系统中常用的最重要构件之一。随着经济的发展,机
产能过剩问题已成为阻碍我国经济增长和产业结构优化的重要因素。产能过剩问题与我国制造业附加值低、核心技术匮乏有关,根本原因在于我国企业创新能力不足。本文聚焦于长江经济带企业,分析技术创新对企业产能利用率的影响。本文首先梳理了技术创新对企业产能利用率影响的相关文献;然后基于1998-2007年中国工业企业数据库数据,测度并分析了长江经济带企业产能利用率的现状;其次建立了技术创新影响企业产能利用率的理论
2μm激光处于“人眼安全”波段,因对大气有强穿透力以及水分子对其强烈的吸收等特性使它在测距、相干激光雷达、大气传感以及医疗手术等领域得到广泛的应用,同时大功率2μm激
由于MEMS加工工艺技术的局限性以及力的尺度效应,MEMS双稳态加速度开关中的结构参数和材料性能存在着不确定性,这些不确定性因素直接影响了双稳态加速度开关性能的稳健性,甚至可能导致开关功能的失效,因此在MEMS双稳态加速度开关的设计阶段进行稳健性优化具有重要的工程意义。由于MEMS双稳态加速度开关在设计阶段无法制作大量的测试样品,使得随机优化方法和模糊优化方法受到了限制。针对上述难题,本文使用区间