中文文本讽刺识别方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:loveherway110
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,人们越来越习惯在社交媒体分享自己的个人观点。因此,如何准确识别和挖掘文本中的情感成为当前热门研究问题。讽刺是一种特殊的语言现象,当用户使用讽刺来表达自己的观点时,其真实情感和字面表达的情感往往存在相反的关系。而在社交媒体中,讽刺是大量出现的。因此对讽刺文本表达的准确识别有助于提升情感分析系统的性能。现有讽刺识别主要包括基于规则、基于统计机器学习和基于深度神经网络三类方法。基于规则的讽刺识别方法需要耗费大量的时间和人力来编写规则。基于统计机器学习的方法则需要人工进行大量的特征筛选。基于深度神经网络的方法能减少对人工特征提取的依赖,但是对训练数据集的规模和质量有较强的依赖性。讽刺文本数据集是讽刺识别研究的基础。针对目前缺乏高质量中文讽刺标注数据的问题,本文对新闻网站用户评论文本进行整理和标注,构建了目前规模最大的中文讽刺文本数据集。该数据集包含2486条讽刺文本和89296条非讽刺文本。为便于后续讽刺识别研究需平衡正负样本数量,本文从非讽刺文本中采样了2486条与讽刺文本构建成了正负样本平衡的中文讽刺识别数据集。针对传统神经网络模型对大规模、高质量标注数据的依赖问题,本文研究了基于对抗样本的对抗学习框架,以提高基于深度神经网络的讽刺识别方法性能。实验结果表明加入对抗学习框架后,卷积神经网络和长短期记忆网络的讽刺识别模型在准确率和F1值上均获得了接近2%的提升。这意味着该框架可以增强讽刺识别模型的泛化能力并提高其鲁棒性。预训练语言模型为自然语言处理任务提供了使用同一模型在大规模无监督语料中训练,然后对下游任务进行微调的新范式,缓解了传统神经网络模型对大规模标注数据的依赖性。为此,本文研究了基于预训练语言模型的讽刺识别方法。实验表明,基于预训练语言模型的讽刺识别方法的性能明显超越基于卷积神经网络和记忆网络的方法。显示出基于大规模参数学习的预训练语言模型增强了对文本深层语义的表示学习能力。最终结合了对抗学习框架和Ro BERTa(Robustly optimized BERT approach)预训练模型的讽刺识别方法在本文构建的讽刺识别数据集上取得0.7843准确率和0.7866 F1值的最佳性能。
其他文献
本文分析了佛山产业结构的矛盾和问题 ,并提出了佛山产业结构调整的产业选择。
北京物美商业集团(以下简称"北京物美")作为首都最大的民营连锁超市,是伴随着零售业市场对外的开放,零售业巨头的"抢滩登陆",竞争日趋激烈而成长、发展起来的。作为连锁超市
<正>在传统的数学课堂上,教师可能会将公式、定理、概念生搬硬套地传授给学生。这样,会导致学生在理解上僵化。怎么解决这种问题呢?我们可以利用"比喻教学",挖掘生活中生动有
恐怖主义是当今社会关注的重要话题,恐怖主义活动引发社会心理危害是一个连续的过程:恐怖主义活动产生恐怖效应,恐怖效应引发不良社会心理,不良社会心理影响社会稳定。关于此
SA8 0 0 0作为社会责任方面的一个认证体系 ,不仅明确了社会责任规范 ,而且也提出了相应的管理体系要求。将社会责任和管理相结合在一定程度上可以规范组织尤其是企业的道德
<正>口才不是表演,更不是特长,而是一种能力。班委竞选,希望一场拉票演讲(campaign speech)为自己增添人气?新年晚会,憧憬拿起话筒成为舞台上万众瞩目的主持人(host)?自主招
期刊
阴阳离子表面活性剂复配体系能够形成各种有序分子聚集体,在溶液相聚集结构研究方面,研究范围已经拓展到了具有特殊结构单元的两亲性分子,这些特殊的结构单元有助于理解疏水
随着现代工业的发展,橡胶消耗量不断增加,废旧橡胶量也随之增加,其中废旧轮胎量最多,占废旧橡胶制品的60%以上,对环境造成了严重的“黑色污染”,为了响应国家节能环保要求,我
随着国民经济水平的迅猛发展,人民生活质量逐渐提高,高校大学生的体质健康备受各界关注。近年来有关体育的政策相继出台,马拉松运动也随之风靡全国,江苏省高校为丰富大学生文
高中的化学相对于初中生来说,更加深奥,所以为了让学生对高中化学产生浓厚的兴趣,并且能够对高中的化学知识更加容易吸收,必须将以往化学课传统的授课模式和理念进行改变,还