论文部分内容阅读
双关语是一种用来描述和理解词义歧义的修辞表达,主要通过词的多重含义或者同音近音的方式,从而使得双关语在上下文语境中具有双重含义,其语言表达更为含蓄、幽默。双关语不但是一种语言学的修辞现象,也是一种隐式情感表达方式,具有独特的研究风格,给人们留下深刻的印象。近年来,随着互联网及其技术的不断发展,微博、推特、论坛等社交媒体平台成为全球最大规模的公共数据源,而双关语文本出现在更加多元化的社交媒体平台上,得到了大多数研究学者更为广泛的关注。因此,研究学者们迫切需要利用自然语言处理技术深入理解和加工双关语信息。双关语研究旨在赋予计算机像人类一样分析双关语的能力,是一项富有挑战的研究课题。
针对目前国内外双关语研究中语义信息利用不足、外部资源利用不充分等问题,本文深入研究双关语的语言学现象和表达特点,展开双关语识别研究、双关词定位研究和双关语生成研究,具体完成的工作主要如下:
(1)对于双关语识别任务,双关语从类别上分为语义双关语和谐音双关语,对两类双关语分别进行识别。首先针对语义双关语识别方法存在由于词的一词多义性引起的语义理解不充分问题,提出了一种基于上下文表示和门控注意力机制的语义双关语识别方法。该方法深入挖掘语义双关语的歧义性,通过引入不同的语言环境中使用上下文语义表示来解决语义双关的一词多义性。另一方面,针对谐音双关语识别方法存在由于词的同音引起的语义表示不丰富问题,提出一种融合发音和拼写的注意力机制谐音双关语识别方法。该方法深入挖掘谐音双关语的语言特性,通过构建发音语义表示和拼写语义表示来捕获谐音双关语的歧义信息。实验表明,上述的双关语识别方法能够有效利用语义信息提升双关语识别的性能。
(2)对于双关词定位任务,针对语义双关词定位方法存在忽视了语义双关语的语言学和语用学信息,提出了一种基于多维语义关系和语义相似度匹配的语义双关词定位方法。该方法根据相关的语言学理论,引入低维分布语义空间和外部语义资源提供的同义词信息。另一方面,针对谐音双关词定位方法存在忽视了谐音双关语的语言学和语用学信息,提出了一种基于细粒度语义表示和BiGRU-CRF的谐音双关词定位方法。该方法深入挖掘谐音双关词在双关语中的表达方式,构建融合字符、音素、词性、位置、词等级别的细粒度语义表示,利用新的标签策略和命名实体框架定位谐音双关词。实验表明,上述的双关词定位方法均获得了比目前先进的方法更好的结果。
(3)对于双关语生成任务,针对生成的语义双关语缺乏歧义性和流畅性从而引起生成文本的质量不佳问题,提出了一种基于歧义性和流畅性的语义双关语生成方法。该方法引入生成对抗网络,由生成器和判别器组成,前者由层次ON-LSTM注意力机制构成,后者通过语义双关词及其不同的词义作为输入判断是真实文本还是生成文本,并结合层次的奖励机制和强化学习机制训练生成器。另一方面,针对生成的谐音双关语存在缺乏上下文语境信息从而引起生成文本的质量不佳问题,提出了一种基于语境理解和语义修正的谐音双关语生成方法。该方法包含语境理解模块和语义修正模块两个部分,前者包括局部语境理解和全局语境理解,后者首先通过预训练模型作为生成器生成谐音双关语,然后利用谐音双关语分类器获得激励得分,通过强化学习机制优化生成的谐音双关语。实验表明,上述提出的生成方法能够生成高质量的语义双关语和谐音双关语。
针对目前国内外双关语研究中语义信息利用不足、外部资源利用不充分等问题,本文深入研究双关语的语言学现象和表达特点,展开双关语识别研究、双关词定位研究和双关语生成研究,具体完成的工作主要如下:
(1)对于双关语识别任务,双关语从类别上分为语义双关语和谐音双关语,对两类双关语分别进行识别。首先针对语义双关语识别方法存在由于词的一词多义性引起的语义理解不充分问题,提出了一种基于上下文表示和门控注意力机制的语义双关语识别方法。该方法深入挖掘语义双关语的歧义性,通过引入不同的语言环境中使用上下文语义表示来解决语义双关的一词多义性。另一方面,针对谐音双关语识别方法存在由于词的同音引起的语义表示不丰富问题,提出一种融合发音和拼写的注意力机制谐音双关语识别方法。该方法深入挖掘谐音双关语的语言特性,通过构建发音语义表示和拼写语义表示来捕获谐音双关语的歧义信息。实验表明,上述的双关语识别方法能够有效利用语义信息提升双关语识别的性能。
(2)对于双关词定位任务,针对语义双关词定位方法存在忽视了语义双关语的语言学和语用学信息,提出了一种基于多维语义关系和语义相似度匹配的语义双关词定位方法。该方法根据相关的语言学理论,引入低维分布语义空间和外部语义资源提供的同义词信息。另一方面,针对谐音双关词定位方法存在忽视了谐音双关语的语言学和语用学信息,提出了一种基于细粒度语义表示和BiGRU-CRF的谐音双关词定位方法。该方法深入挖掘谐音双关词在双关语中的表达方式,构建融合字符、音素、词性、位置、词等级别的细粒度语义表示,利用新的标签策略和命名实体框架定位谐音双关词。实验表明,上述的双关词定位方法均获得了比目前先进的方法更好的结果。
(3)对于双关语生成任务,针对生成的语义双关语缺乏歧义性和流畅性从而引起生成文本的质量不佳问题,提出了一种基于歧义性和流畅性的语义双关语生成方法。该方法引入生成对抗网络,由生成器和判别器组成,前者由层次ON-LSTM注意力机制构成,后者通过语义双关词及其不同的词义作为输入判断是真实文本还是生成文本,并结合层次的奖励机制和强化学习机制训练生成器。另一方面,针对生成的谐音双关语存在缺乏上下文语境信息从而引起生成文本的质量不佳问题,提出了一种基于语境理解和语义修正的谐音双关语生成方法。该方法包含语境理解模块和语义修正模块两个部分,前者包括局部语境理解和全局语境理解,后者首先通过预训练模型作为生成器生成谐音双关语,然后利用谐音双关语分类器获得激励得分,通过强化学习机制优化生成的谐音双关语。实验表明,上述提出的生成方法能够生成高质量的语义双关语和谐音双关语。