基于深度学习的文本情感分析技术的研究与实现

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:aurogon1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展与普及,网络生活已经被人们所习以为常,在线社交媒体构建了一个极好的平台,使得大众可以方便快捷的参与其中,分享自己的观点和看法。这些观点往往包含着大量带有感情色彩的信息,如消费者对产品和服务的评价,民众对于政府新政策制定的观点和看法等。因此利用情感分析技术对这些信息进行分析,对于产品的商业销售及大众的舆论导向分析等具有十分重要的价值和意义。传统的情感分析技术可分为基于词典的方法和基于机器学习的方法。传统的机器学习方法,需要某一领域内的大量标注数据来训练模型,从而达到更好的分类准确性,并且在一个领域数据训练得到的分类模型不能应用到其他领域。情感词典方法虽然可以适用于不同领域内的情感分类,但受限于词典中情感词的覆盖与更新,无法准确识别特定领域的情感表达。基于深度学习的方法不需要大量的标注数据来训练模型,而且一个领域数据训练得到的分类模型同样也可以应用到其他领域中。本文针对现有的基于深度学习的情感分析模型进行了研究与改进,并且针对跨领域情感分析的问题,将迁移学习的技术引入到了情感分类模型中,主要工作如下:(1)本文在注意力机制(Attention Mechanism,AM)的基础上提出了分层门控循环单元(Gated Recurrent Unit,GRU)情感分类模型。该模型在提取文本特征表示时分为单词层和句子层的特征提取,并在提取过程中加入AM能够准确提取文本中重要的语义信息,该模型相比于其它循环神经网络模型拥有更轻量级的结构,没有复杂的模型参数。(2)在卷积神经网络(Convolutional Neural Networks,CNN)基础上,提出了一种CNN和双向GRU的融合模型。该模型先通过CNN提取不同维度的文本特征进行组合,再利用双向GRU捕捉长距离单词间的特征信息,更好地提取到文本的语义信息。(3)在Transformer编码器中的嵌入层后添加一层GRU或者CNN,并去掉位置编码嵌入环节。这样的模型融合方式不仅帮助Transformer更精准的提取到上下文的语义信息,同时也使GRU和CNN获得了Transformer中高性能的构件—自注意力机制(SelfAttention Mechanism,SM)。(4)本文使用迁移学习(Transfer Learning)的方法将预训练好的基于Transformer的双向编码器表征模型(Bidirectional Encoder Representation from Transformers,BERT)应用到跨领域的情感分析任务中。并通过在原模型中添加一层GRU来改进模型,使其在不影响计算效率的同时能够提取到细粒度的上下文信息并更适应于迁移学习。实验证明,上述改进模型均取得了比原模型更好的分类性能。
其他文献
随着社会生产的飞速发展,物流与仓储在供应链中的地位日益提高,传统仓储行业仍存在自动化水平低、功能单一且落地成本高等不足。自动化仓储技术通过计算机信息管理和电气控制,可以有效地完成货物自动存取作业,货物库存的高效管理,对降低物流与仓储成本,提高运输效率具有重要的意义。本文主要研究自动化仓储系统调度优化方法,主要包括基于条码识别的A-ABC货物分类法、货位分配调度优化算法等。本文主要工作及成果如下:(
视觉里程计是无人车导航领域的研究热点之一,它是利用装载在移动机器人上的一个或多个相机采集到的图像信息,对其自运动进行估计的过程。其中单目视觉里程计仅利用单个相机的图像信息,有着低成本、易配置、结构简单以及计算效率高等优点,成为了研究的热点。而近年来深度学习已广泛应用于计算机视觉任务中。因此本文结合深度学习,对单目视觉里程计进行研究。首先,针对深度神经网络中由于深度神经网络在网络层数较深产生的梯度消
在机器学习中,将不同类别的样本数量存在显著差距的数据集认为是不平衡数据集。当代表一个类别的样本数量远低于其他类别的样本数量时,这一个类或多个类在数据集中的代表性可能不足,就会发生类别不平衡问题。然而,为了提高准确性或者最优化相应的代价函数,正确预测多类实例的规则将会收到更大的权重,因此标准的机器学习算法通常偏向于数量多的大类,从而忽略了少类样本,导致小类样本比大类样本更容易被误分类。事实上,从应用
随着深度学习的发展及神经网络在图像识别等计算机视觉任务中取得的显著效果,使得深度学习在诸如目标追踪、目标检测、行人再识别、图像检索等计算机视觉任务中被广泛应用。显著性检测作为一项在其他计算机视觉任务中的数据预处理技术成为了研究的热点,随着视频设备的普及,人们面对的场景往往是动态变化的,所以视频显著性检测成为一个热门的研究方向,它旨在通过特定的算法检测出连续运动的能引起人眼关注的显著性目标。本文将视
热变形是影响数控机床加工精度和定位精度的最大误差源,而滚珠丝杠副作为数控机床的关键功能部件,控制丝杠轴的热变形是提高数控机床精度的关键。丝杠预拉伸作为高效易操作的热变形补偿技术手段,在数控机床领域应用广泛,但目前对于预拉伸量主要按照经验取值,缺乏系统研究。本文以国家科技重大专项为背景,首先建立了滚珠丝杠副预拉伸量与热变形量理论模型,然后对理论模型进行了有限元分析和试验验证,最终建立了不同工况下滚珠
蛋白质-DNA绑定位点是指能够与蛋白质发生相互作用的一段DNA序列,寻找蛋白质-DNA绑定位点可以帮助预测调控基因的功能,了解生物系统中的调节过程和识别致病变异体。更重要的是蛋白质-DNA绑定位点可以帮助设计能够促进或抑制目标基因表达的药物。因此,从DNA序列中精确地识别出蛋白质-DNA绑定位点是一项重要的任务。传统的基于生物实验来识别蛋白质-DNA绑定位点的方法存在成本高且耗时长的缺点。因此,设
本文以提高火箭飞行性能为研究目的,对火箭运动学模型、飞行参数优化方案与优化方法等方面进行研究。针对简单遗传算法容易收敛到局部极小问题,结合罚函数处理约束条件的方法,设计了改进的遗传算法,实现了最大射程和最小起飞质量约束条件下的火箭飞行参数优化设计,对火箭总体设计与制导方案的选择有着重要的指导意义。主要工作内容如下:1.建立了火箭三自由度运动学模型。分析了火箭飞行特点及运动规律,建立了火箭的三自由度
由于能源容量的限制,飞行机器人的任务生命周期短,作业形式单一,给予飞行器着陆栖息和爬行功能是解决此问题极为重要的方法之一。为了使飞行爬壁机器人能应用于外星探索或者混凝土、花岗岩等城市人造粗糙壁面,要求着陆栖息和爬行机构可适应多颗粒、多粉尘和粗糙的非结构化自然表面。然而,目前已有的真空、磁力和粘液等附着方式均无法适用于非结构化表面,爪刺附着方式也仅限于笨重的纯爬壁机器。研究爪刺式飞行爬壁机器人着陆栖
目前,心脏疾病是造成人类非自然死亡的主要原因之一。而针对心脏病理的研究与治疗往往需要依靠大量的心脏成像手段。作为一种常用的成像方式,核磁共振成像为心脏疾病的诊断和治疗提供了重要信息,很多临床参数需要通过分割MRI图像中的心室区域得到。临床上,分割通常由专家手动执行,不仅费时耗力,而且还存在很高的观察者间差异性。因此,开发快速、精准、可重复以及全自动的分割算法对心脏及其疾病的研究有着十分重要的意义。
随着互联网技术的发展,数据呈现出爆炸性的增长,这标志着我们进入了大数据时代。哈希学习算法能够将冗杂度高、数量级大、特征维度高的数据映射成紧凑的二进制哈希码。作为当前机器学习领域的一个研究热点,哈希学习在众多领域都得到了广泛应用。本文主要探讨哈希学习在图像内容完整性认证和运动捕捉数据检索方面的应用,主要研究内容及贡献如下:(1)全面综述了各类典型的哈希学习的研究现状、应用领域。(2)现有图像内容完整