基于情感常识注入的神经网络在文本情感分类中的研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:shlpsfs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本情感分类任务旨在判别给定文本的情感类别(消极、积极等),是情感分析(Sentiment Analysis,SA)领域下基础且重要的工作。近来,神经网络(Neural Networks,NN)凭借其巧妙的网络结构和强大的表征能力在文本情感分类任务上取得优异成绩。然而,神经网络在利用海量训练数据建模文本特征时,其复杂抽象的黑盒化学习过程忽视了对该分类任务起着关键作用且可直接利用的常识知识:如句中能直接决定文本情感的情感词本身具有的情感极性(消极或积极)。所以,如何利用已知常识知识辅助神经网络提升模型的分类性能,同时提高模型的可解释性值得探索。于是,本文着眼于情感常识知识和神经网络模型在文本情感分类任务中的研究,展开以下三个方面的工作:(1)首先,本文借助注意力机制(Attention Mechanism)向神经网络模型注入情感常识,提出一种由情感中心诱导生成的情感常识权重矩阵来获取句子向量表征。现存的注意力机制在文本情感分类任务中,需大量有标签的数据有监督地对模型参数进行训练导致训练成本较高,且隐式地学习句中各单词的权重导致权重准确率较低。而本文的情感常识权重矩阵直接利用有效常识信息进行针对性学习,以提高注意力机制对关键情感词判别的准确性;同时,在此基础上本文进一步提出一种情感常识校验机制,利用句中已知常识信息校验该句子对应权重矩阵是否准确地给关键词赋予较高权重,给其余词赋予较低权重,以此提升分类模型性能。本部分相关工作已发表于2018 IJCNN(CCF-C类)会议上。(2)然后,本文通过多任务学习(Multitask Learning)的方式向神经网络模型注入情感常识,提出一种与文本情感分类任务同时进行的情感序列标注任务。由于神经网络在融合上下文语义信息的同时,会弱化甚至丢失单词原本具有的情感常识信息,而单词的情感在文本情感分类任务中往往起着决定性作用。所以,本文提出一种细粒度的辅助情感序列标注任务:在神经网络建模句子的同时,利用常识知识对神经网络学得的各单词隐含层表征进行情感标注,以此增强该表征中对应单词的原始情感信息。同时,为进一步增强辅助任务模型的性能,本文还尝试了将常识信息拼接注入神经网络的两种网络结构:1)词表征级的拼接;2)隐含层表征级的拼接,然后再将这两种拼接方式分别与辅助标注任务结合,探索将情感常识注入神经网络的最优方式。该相关工作已发表于2019 CIKM(CCFB类)会议上。(3)最后,本文还利用上述两种注入了情感常识的神经网络模型完成情感常识知识库的扩充:1)通过情感常识权重矩阵识别出新重点词;2)通过情感序列标注任务判别出新情感词,使得本文工作形成“已知情感常识辅助神经网络模型”到“神经网络模型挖掘未知情感常识”的闭环。本文在真实文本情感分类数据集上进行了大量实验:论证了将情感常识注入神经网络提升模型性能的必要性和充分性;验证了本文提出的注入情感常识的神经网络模型的有效性,在各数据集上取得明显的性能提升;展示了本文关于情感常识知识库扩充方法的可行性。
其他文献
颗粒堆积问题广泛存在于地质、农业、医药、材料冶金、化学工程等诸多领域。在石油化工领域中,研究催化剂颗粒的堆积特性对于优化固定床反应器的传热传质具有重要意义。实际
非线性椭圆型微分方程和方程组广泛应用于物理学、几何学、生物学等学科,并且在工业生产和科学进程中发挥着重要的作用.本文研究的主要内容是非线性椭圆型微分方程中,带临界
双层规划、双层变分不等式、双层均衡问题等双层优化问题在很多领域有着广泛的应用,双层优化问题主要研究其解的存在性和迭代算法.本文主要研究Banach空间上双层广义混合均衡
对陆地生态系统碳循环的准确评估是预测气候变化及其对陆地生态系统影响的重要基础。经过长期的观测和模拟研究,人们在碳循环领域取得了比较大的进展,对其主要过程有了一定的
基于模糊优化理论,本文在博弈理论的最新研究成果的基础上,探讨了模糊优化理论在两人多目标博弈论中的应用。首先,本文给出了一种具有模糊支付的多目标矩阵博弈新模型,为了解
水稻(Oryza sativa L.)是最重要的粮食作物之一,全球半数以上的人口以水稻为主食。水资源是水稻生产的核心要素,水稻生产消耗的水资源占农业用水的70%,缺水将严重制约水稻生产
粒子物理标准模型是目前基本粒子物理学的正统理论。虽然粒子物理标准模型成功地预言了标量希格斯玻色子,并且经受住了大量与时俱进的实验检验,但其本身仍具有平庸性和不自然性的问题,同时对一些实验现象也无法给出合理的解释。这些问题涵盖了:微调(fine-tuning)问题和等级(hierarchy)问题;三代费米子之间的质量层级与味混合问题;宏观宇宙中观测到的物质-反物质不对称性以及暗物质与暗能量的起源;微
近几年随着硬件性能的不断升级,越来越多基于深度学习的人工智能应用正在不断走进我们的生活中,从基于自然语言处理技术的语音助手和机器翻译,到基于计算机视觉技术的图像识别、检测和分割,无一不为我们的生活提供了极大的便利。但是值得注意的是,深度学习应用的成功与否,是取决于训练数据量的规模的,比如计算机视觉领域的大规模图像数据集ImageNet[1],经过它训练的模型才能在多种数据场景下都取得不错的泛化能力
疏水纳米药物存在聚集、重结晶以及奥斯瓦尔德熟化等不稳定因素。实验已经证明疏水抗癌药物紫杉醇(PTX)能与丹宁酸(TA)产生交联作用,可通过调节体系的pH值,对PTX与TA的自组装结构
飞燕草(Consolida ajacis(L.)Schur)属于毛茛科飞燕草属,别称彩雀、大花飞燕草等,以根入药,性寒、味苦,具有镇痛,抑菌,抗炎,抗肿瘤,杀虫等药用功效。本文以飞燕草为研究对象,