论文部分内容阅读
近年来,人们越来越习惯在社交媒体分享自己的个人观点。因此,如何准确识别和挖掘文本中的情感成为当前热门研究问题。讽刺是一种特殊的语言现象,当用户使用讽刺来表达自己的观点时,其真实情感和字面表达的情感往往存在相反的关系。而在社交媒体中,讽刺是大量出现的。因此对讽刺文本表达的准确识别有助于提升情感分析系统的性能。现有讽刺识别主要包括基于规则、基于统计机器学习和基于深度神经网络三类方法。基于规则的讽刺识别方法需要耗费大量的时间和人力来编写规则。基于统计机器学习的方法则需要人工进行大量的特征筛选。基于深度神经网络的方法能减少对人工特征提取的依赖,但是对训练数据集的规模和质量有较强的依赖性。讽刺文本数据集是讽刺识别研究的基础。针对目前缺乏高质量中文讽刺标注数据的问题,本文对新闻网站用户评论文本进行整理和标注,构建了目前规模最大的中文讽刺文本数据集。该数据集包含2486条讽刺文本和89296条非讽刺文本。为便于后续讽刺识别研究需平衡正负样本数量,本文从非讽刺文本中采样了2486条与讽刺文本构建成了正负样本平衡的中文讽刺识别数据集。针对传统神经网络模型对大规模、高质量标注数据的依赖问题,本文研究了基于对抗样本的对抗学习框架,以提高基于深度神经网络的讽刺识别方法性能。实验结果表明加入对抗学习框架后,卷积神经网络和长短期记忆网络的讽刺识别模型在准确率和F1值上均获得了接近2%的提升。这意味着该框架可以增强讽刺识别模型的泛化能力并提高其鲁棒性。预训练语言模型为自然语言处理任务提供了使用同一模型在大规模无监督语料中训练,然后对下游任务进行微调的新范式,缓解了传统神经网络模型对大规模标注数据的依赖性。为此,本文研究了基于预训练语言模型的讽刺识别方法。实验表明,基于预训练语言模型的讽刺识别方法的性能明显超越基于卷积神经网络和记忆网络的方法。显示出基于大规模参数学习的预训练语言模型增强了对文本深层语义的表示学习能力。最终结合了对抗学习框架和Ro BERTa(Robustly optimized BERT approach)预训练模型的讽刺识别方法在本文构建的讽刺识别数据集上取得0.7843准确率和0.7866 F1值的最佳性能。