基于深度学习的非平衡文本数据情感分析研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:peterchill
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博、微信等网络社交媒体的兴起标志着自媒体时代的到来,自媒体新闻有着广阔的传播覆盖面,对自媒体新闻进行情感分析有利于了解社会公众对公共事件的整体态度和看法。目前,得益于众多电商平台完备的评价体系,商品、电影评论等领域已经有很多规范的中文情感数据集。然而对于其他非特定领域,由于缺乏相应的评价体系,数据标签的获得只能依赖成本高昂的人工标注,这就导致大量深度学习任务都普遍面临着小数据和非平衡的问题,而且这两个问题往往是相互伴随着出现。因此,对该问题的研究具有重要的应用价值和现实意义。本论文将从算法及数据层面研究如何基于非均衡数据集训练出高效的情感分析模型,本文将从四个方面来展开研究工作。(1)结合CNN、Bi GRU以及Attention机制在文本处理方面的优势,提出了一种新的情感分析模型Conv Bi GRU-Attention。该模型首先利用多核卷积操作来提取多粒度的文本情感特征,然后基于Bi GRU层提取联系上下文的语义特征,最后引入了自注意力机制对语义特征进行加权,使得模型能够更加关注重要的信息特征。通过实验表明,相比于GRU、CNN、Bi GRU等模型,该模型在Dmsc_v2数据集上在准确率和F1值上均有提升。(2)在中文中有很多兼类词,比如“料理”一词,当它作为动词时指“处理、整理”的意思,而其作为名词时又是“菜肴”的意思。针对目前的word2vec等静态词向量无法表示同词不同义的问题,本文提出了一种融合词性特征的词嵌入方法,该方法能使模型更好地学到深层次的句法结构特征。实验证明我们的方法在文本分类任务中是有效的。(3)对于数据非平衡问题,本文从数据层面入手,在分别对各类采样法和数据扩展方法进行分析研究后,提出了一种融合上采样、下采样及数据扩展的采样再平衡同义词替换法。该方法不仅可以使训练集中稀少类和丰富类的数量比例相对平衡,还能同时对两类数据进行数据扩展,从而增加整个训练集规模,有效提高分类效果。(4)对于具有大量数据却只有少量已标注数据的数据集,本文引入了在机器视觉领域广泛使用的伪标签概念,将大量无标签数据利用到了有监督的训练过程中,有效提高了Conv Bi GRU-Attention模型在小数据非平衡数据集上的分类效果。
其他文献
由于脑电信号反映了大脑神经的基本活动,所以能够客观反映出人的内在情感。然而在脑电信号采集过程中不可避免的出现伪迹,这将导致脑电信号质量不佳;以及现有的特征选择方法无法提取与情感相关的通道,从而将与情感无关的通道也参与脑电信号分类之中,这些结果都会导致脑电信号情感效果较差。为解决上述问题,本文以SEED数据集、DEAP数据集为研究对象,将稀疏化理论引入脑电信号情感分类之中,对特征提取选择和分类算法进
人类对于世界的探索已经不仅仅局限于陆地和海洋,而是将探索的方向转向了更为广袤的天空和宇宙,因此对各个国家在航空航天领域的技术实力提出了更高的挑战,国家在空气动力学领域的研究与进步也就显得尤为重要。空气动力学中在获取气动数据时仍依赖较为传统的方法,但此类方法的局限性较大,通常具有较高的时间或经济成本。而当前人工智能技术的蓬勃发展为空气动力学领域气动数据的获取方式的发展提供了新的契机。空气动力学领域传
人体动作识别作为视频分析中一个非常重要的组成部分,其已经在多个重要领域发挥至关重要的作用,包括视频监控、人机交互、自动驾驶等等。传统的人体动作识别主要基于RGB图像或视频,但由于尺度、光照变化以及背景噪声等因素的影响,效果不尽如人意。近年来,得益于深度传感器的发展以及人体骨骼关键点检测算法的成熟,越来越多的研究聚焦在基于骨骼关键点的动作识别算法上,并且开始使用图卷积对人体骨骼进行建模并加以分析。本
人工智能技术如今在诸多领域已经取得了巨大的突破,得到了非常广泛的应用,例如目标检测、图像识别和自然语言处理等。目前由于“数据孤岛”问题和愈发严格的隐私安全管控,人工智能技术面临着缺乏高质量训练数据的困境。由于联邦学习支持用户在不分享原始数据的条件下联合训练模型,能够汇聚更多分散的数据共同建模,因此逐渐成为人工智能研究领域的热点。然而,联邦学习环境中存在的数据异质性和系统异质性因素会导致模型训练效率
在多目标优化问题(multi-objective optimization problems,MOP)中,一个子目标的改善可能会引起另一个或者另几个子目标的性能降低。因此不存在同时优化所有目标的全局最优方法,而是存在一组能够权衡冲突目标之间的解决方案。演化算法(evolutionary algorithms,EA)由于其基于种群的特征已被广泛认为对多目标优化有效,算法以尽可能权衡各个优化目标来保持
得益于互联网和移动设备的广泛应用,以信息流形式为基础的电子商务平台和短视频平台正在占用更多的流量和用户时长。为了解决“信息过载”问题,个性化推荐系统成为了互联网厂商重点发展的核心技术。本文以多媒体推荐系统为研究课题,主要关注大规推荐排序算法中普遍存在的挑战,重点研究了利用深度学习和多模态学习解决用户冷启动,物品冷启动,小样本量等问题。主要内容分为三部分。第一,物品冷启动。物品冷启动指的是新的物品加
自动求解数学题是机器智能推理领域的一个重要子问题,用于解决这该问题的自动求解器通常为一种特定的机器智能系统。广义的来说,在推理任务中,机器智能体需要依据给予的信息(如事实描述或观测信号)和已有的先验(如模型结构和常识知识),在特定的限制下来解决特定的问题或者给出总结。更具体地,对于自动求解数学题系统,求解器需要依据给定的问题描述和数学先验知识,生成符合规范可计算的解题等式。该任务基于检测机器智能体
随着深度学习的兴起,越来越多领域开始使用深度神经网络和循环神经网络构建性能卓越的数据驱动的模型结构。比如在自动驾驶和智能安防等场景下,深度模型的出现使得这些技术出现了较大的进展,因为基于大规模数据的深度模型在自然情况下可以对图片进行高效、高准确性的计算和判断。但是有部分研究员们却发现深度模型存在一个比较严重的隐患,即通过对图片添加一些很小的扰动便可以导致模型做出错误的判断。在高性能要求的应用场景中
文本检测与识别的相关工作在我们的日常生活中随处可见,如身份证识别、停车场的车牌识别等,极大地方便了人们的生活。不同应用场景下文本内容形态多样,尺度差异较大,语义背景也往往不同,需针对性地设计检测与识别算法以取得更好的实操效果。本文基于民国报纸标题检测与识别这一具体中文场景任务展开,该工作有利于将纸质报纸转化成能检索能查询的数字馆藏,进而挖掘其史料价值。我们对基于深度学习的文本检测与识别工作进行研究
自主装修机器人在执行各种任务时需要在装修环境中来回移动。自主路径规划能力是一个移动机器人智能化的重要衡量因素。这要求移动机器人能够主动感知环境信息,然后利用环境信息做出导航决策。在动态环境中,移动机器人对于环境全局信息的认知是不足的,其通过传感器主动感知环境局部信息来规划自己的路径。因此,对环境信息理解和利用的能力是移动机器人实现自主路径规划的关键。本文主要的工作如下:1.使用ROS和Gazebo