基于抽象语义表示的省略现象研究

来源 :南京师范大学 | 被引量 : 0次 | 上传用户：information1005

【摘要】

：

【作者】

：

刘依欢

【出处】

：

南京师范大学

【发表日期】

：

2020年01期

【关键词】

：

省略现象抽象语义表示语义分析中文信息处理

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

省略现象在人类语言中普遍存在,人们在处理省略现象时,通常需要补充出缺省的成分,才能完整地理解句子的语义。以往的研究大都依赖句子中出现的与省略成分相同的词语也即先行语,来补充省略成分。但是,汉语中省略成分与先行语有时并不完全对应,有些省略成分甚至不存在先行语。对于计算机来说,正确地识别和恢复省略成分并不简单,目前省略识别与消解系统的表现不如人意。究其原因,主要包括以下三个方面:(1)省略现象的界定本身存在争议,省略现象的判定标准并不统一;(2)省略成分与先行语并不总是完全对应,甚至存在无先行语的省略句,这也加大了恢复省略成分的难度;(3)标注了省略现象的语料资源匮乏,省略的表示机制不够合理,省略的理论研究和自动消解系统缺乏大规模高质量的语料资源作为支撑。为了解决这些问题,本文采用了一种新的语义表示方法——抽象语义表示(AMR),改进了省略成分的标注方法,使其能够较为合理地恢复汉语句子中的各类省略成分。在此基础上,本文构建了包含10000句新闻语料的中文AMR语料库,重点研究了汉语中不同类型的省略成分的恢复策略及其分布情况,并探讨了省略成分与先行语的对应关系。本文的工作主要包括以下三个方面:(1)针对省略现象的判定标准不统一的问题,本文从资源建设和可操作性的角度,确定了语义标注时省略现象的判定标准,把在句子的语义理解中必不可少,但在表层结构中没有出现的成分看作省略。本文只关注对句义的完整性起重要作用的主要语义成分,并不把省略的修饰语作为研究目标。此外,空语类、“的”字结构、论元共享和比较项不完整等现象符合本文中省略的定义,因此都被划入省略现象的范畴。明确语义标注时省略现象的判定标准,提高了标注的一致性和标注语料的质量。(2)针对省略成分与先行语不完全对应的问题,本文根据省略成分与先行语的语义关系,对省略现象进行重新分类,将其分为与先行语完全对应的省略、与先行语不完全对应的省略和无先行语的省略三类。然后介绍了中文AMR处理这三类省略现象的方法,分别采用复制先行语、新增概念、复制先行语与新增概念相结合的方法合理地将语料中的省略成分补充出来。根据省略成分是否存在修饰语及其数量多少,恢复的省略成分在AMR图中的表现可以分为三类——完整的子树、子树的根节点以及子树的一部分,本文也设计了特殊的标签进行区分,完善和提高了中文AMR处理汉语中各类省略现象的能力。(3)针对省略现象的语料资源较少,省略的理论研究与消解系统缺乏数据支撑的问题,本文构建了一个10000句规模的包含省略信息的中文AMR语料库,在此基础上,统计分析了省略现象的分布情况。统计发现,有56.21%的句子出现了省略现象,其中与先行语完全对应的省略占所有句子的90.82%,与先行语不对应的省略和无先行语的省略分别占9.63%和14.5%1。此外,本文还统计省略成分的语义角色分布情况,87.79%的省略成分都是核心语义角色,并且各类语义角色的分布极不均衡,其中原型施事(arg0)出现省略现象的频率最高;62.28%的省略成分与先行语的语义角色一致,而出现最频繁的语义角色——arg0的一致性高达70%。综上所述,本文重点关注了中文AMR语料库中的省略现象,确定了省略的定义及表示方法,统计分析了汉语中省略现象的分布特点和规律,为省略现象的理论研究和识别恢复提供了数据基础。具体而言,统计数据验证了理论研究提出的省略现象非常普遍这一观点,也证明了汉语中不存在先行语或存在不完全对应的先行语的省略句占比较高,单纯依赖先行语的恢复方法并不合理,新增概念等方法很有必要。此外,通过比较先行语与省略成分的语义角色异同,我们发现先行语不仅在恢复省略成分时发挥着重要作用,同时也能为确定省略成分的语义角色提供线索。

其他文献

水平循环荷载下砂土中管桩动力响应研究

海上风电单桩基础主要为开口管桩,其承受的荷载十分复杂,包括波浪、风和水流等动荷载。本文通过采用大型室内模型试验,研究不同加载形式下开、闭口管桩的动力特性。并通过颗

学位

单桩基础循环荷载模型试验累积变形p-y曲线颗粒流模拟

甜玉米自交系苗期耐渍性的筛选及全基因组关联分析

随着全球气候变化日益加剧,涝渍灾害成为农业生产和全球粮食安全的首要问题。玉米种质中具有丰富的耐渍变异,挖掘耐渍品种中优良的耐渍基因对研究玉米耐渍机理及培育耐渍新品

学位

甜玉米渍水胁迫关联分析

硫化氢供体对玉米种子活力修复机理的研究

玉米是我国重要的粮食作物,在其种子的长期储藏过程中经常会遇到极端高温、高湿等逆境的胁迫,这种现象被称为种子的老化。老化后的种子主要表现在种子活力下降及品质变劣,还

学位

玉米硫化氢种子活力活性氧同工酶蛋白质组学

强震下钢框架梁柱焊接节点塑性应变疲劳裂纹萌生寿命研究

钢框架结构因其独特的优点在建筑结构中获得了广泛的运用,但是以往的强烈地震下的钢框架结构破坏调查结果显示,梁柱焊接节点焊缝区域是钢框架结构的薄弱环节,裂纹最先在这一

学位

地震梁柱焊接节点多轴疲劳裂纹萌生疲劳寿命

隧道施工方法对通风塔结构及地表变形影响的数值模拟研究

隧道通风塔是一种在隧道工程中常见的构筑物,其在隧道的施工与运营阶段都发挥着不可替代的作用。传统的隧道通风塔施工方法是先进行盾构穿越,再进行通风塔结构的施工,该施工

学位

通风塔施工方法有限元内力变形

镍钴系金属氧化物及其复合物的控制合成及电化学性能研究

随着现代社会经济的快速发展人类生活水平不断提高,同时传统化石燃料燃烧带来的能源消耗和环境问题也日益严重,因此发展可再生能源及清洁能源已经成为必然趋势。然而太阳能、

学位

镍钴金属氧化物电化学性能超级电容器催化

中碳贝氏体钢热变形及再结晶行为研究

中碳贝氏体钢具有高强度、适当的韧性和硬度,尤其是它具有优异的焊接工艺性能,使它在各个领域的应用越来越广泛。金属材料变形过程中的变形抗力和静态再结晶行为研究是轧制规

学位

贝氏体钢静态再结晶动态再结晶变形抗力

基于递归图的脑电信号非线性动力学研究

轻度认知障碍是人类介于正常衰老状态和痴呆状态的一种中间状态,其发展成痴呆的几率很高,严重影响患者的生活质量,给人类带来极大的困扰。大脑是神经系统的最高级部分,脑电信

学位

轻度认知障碍非线性动力学多尺度交叉递归图

企业战略、资产专用性与创新投入

“创新”在党的十九大报告中被广泛提及。习近平总书记指出应当将创新作推动企业向前发展的第一动力。因此,如何提升企业的创新水平进而提升企业的生产能力,让我国由制造业大

学位

企业战略资产专用性创新投入

填充墙RC框架结构抗震性能的精细化数值模拟研究

填充墙RC框架结构是现代房屋建筑中应用最广泛的一种结构形式。但在近些年来发生的地震对填充墙RC框架造成了严重的破坏,特别是填充墙的倒塌造成了大量的人员伤亡以及财产损

学位

填充墙RC框架结构砂浆模拟显式求解法抗震性能

基于抽象语义表示的省略现象研究

与本文相关的学术论文