基于深度学习的中文反讽识别及其情感判别研究

来源 :山西大学 | 被引量 : 5次 | 上传用户:moowoo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,情感分析是自然语言处理中最活跃的研究领域之一。反讽是一种隐式情感表达的修辞手段,通过使用与实际意图相反的词来达到讽刺或者幽默的语言表达效果。反讽的真实语义无法通过文本词汇直接推断出来,它的字面意思和真实意图存在着矛盾冲突,因此,反讽识别及其情感判别更具挑战性。以往的文本情感分析往往忽略了这一语言现象,影响了情感分析的准确率。为了提升文本情感分析的准确率,本文对中文反讽识别及其情感判别开展研究。通过分析中文特有的语言现象和微博的特点,归纳了中文微博反讽的语言特征,提出了融合语言特征的卷积神经网络模型和融合上文信息的注意力机制的LSTM模型来进行反讽识别及其情感判别。主要研究工作如下:(1)中文微博反讽的语言特征选择。由于反讽与语言习惯有关,不同语言的语法结构和语义表达存在差异,和英文反讽相比,中文反讽的语法结构和语义表达更加复杂,使得中文反讽识别及其情感判别在词语层面上比英文反讽识别及其情感判别更具有难度,英文的反讽特征并不能够直接用于中文的反讽识别及其情感判别中。本文在借鉴中英文反讽识别相关工作的基础上,考虑中文微博自身的特点,归纳了中文微博反讽的几种语言特征,并通过卡方统计量选取了多种语言特征对应的特征词。(2)融合语言特征的卷积神经网络模型。传统的机器学习方法依赖于人工选取特征,这些特征的选取需要专业领域知识和大量的实践,而且单凭人工特征难以获得句子的深层语义信息。本文针对传统特征选择方法无法挖掘句子深层语义的不足,采用Skip-gram模型训练微博词向量,提出了一种融合语言特征的卷积神经网络模型。该模型在利用中文反讽语言特征的同时,融合了句子的深层语义信息。实验结果显示,该模型在中文反讽识别方面比传统的机器学习方法有明显的提升,F值达到了0.8187,同样该模型在反讽情感判别方面较单独的CNN模型有一定的改善。(3)融合上文信息注意力机制的LSTM模型。对于微博中的反讽句,它的上文信息往往叙述了反讽的原因,表达了微博的整体情感。因此,上文信息对于反讽识别及其情感判别起着关键性的作用。由于传统的CNN模型仅从连续的N-gram向量矩阵中获取局部的特征,无法解决句子中非连续性依赖和交互性问题,相互独立的节点无法有效表示序列化的文本。因此,为了更好的对句子进行语义表示,本文在融合语言特征的卷积神经网络模型的基础上,加入了LSTM和注意力机制。实验结果显示,该方法提高了中文反讽识别的精确率,并对反讽的情感判别也有一定的提升。
其他文献
数学是一门十分有魅力的学科,学习数学对大学生来说意义重大。数学不仅仅是科学技术知识学习的基础,而且和生活有紧密的联系。笔者从数学文化的重要意义与作用出发,探究大学
目的分析盆腹腔肿瘤精确放疗的摆位误差,对摆位技术进行规范及改进。方法 60例盆腹腔肿瘤患者作为本次的研究对象,并利用瓦里安电子射野影像系统对比分析患者电子计算机断层
在互联网+背景下高职院校承担着与时俱进,培养适应经济发展的、能够运用互联网手段促进和实施创新创业的新型专业人才的重任。文章先分析了互联网+背景下大学生创新创业能力
水下高速无人艇属于AUV的研究范畴,但水下高速无人艇与普通AUV又有明显不同的特性,如水下高速无人艇最高航速远大于普通AUV,因此水下高速无人艇可以看做是高速AUV。水下高速
<正>网络的公开性,让信息可以随时共享,纸媒记者的工作方式和生存状态也随之发生了变化。新环境下,纸媒记者如何发挥自己的专长和优势,利用自媒体,拓宽新闻源,是一个值得探讨
通过绍兴平江路综合铁路立交工程工地实例,对现阶段箱涵无拉杆支架方案进行受力计算,为类似施工提供借鉴。 Through the example of the comprehensive railway interchange
如何有效的利用网络教学资源提高高职英语教学水平是很多英语教师探讨的话题。作者通过将传统课堂教学和基于网络学习平台相结合的教学实践改革,探索切实提高英语教学效果、
非平稳性度量是衡量时间序列平稳程度的方法.利用非平稳度量,给出了C检验,并结合非平稳性度量值,对我国体彩“排列五”、“七星彩”及美国亚利桑那州的博彩“Pick3”的历史数据进
目的分析孕期步行运动体质量控制对孕妇妊娠结局、产妇血脂水平及血清脂肪因子的影响。方法将我院107例肥胖孕妇用随机数字表法进行分组,对照组53例定期进行孕期检查,观察组5