基于深度学习的文本情感分析研究与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:g2gstock
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
这些年来,在自然语言处理方面,深度学习技术发挥着重大作用,并在此领域的研究和应用方面成果显著,基于深度学习的框架在一些方面已经超过了人类。微博由于其简单易用,传播迅速等特点,已成为大众发表言论、表达情感的重要平台,产生了大量带有情感的文本数据,对这些有情感信息的文本数据进行情感倾向分析,挖掘出其中含有的情感倾向,极具研究意义。因此本文使用深度学习技术对微博中的文本数据进行情感分析,在此基础上设计并实现了一个微博情感分析系统。为了提高情感分析技术水平,本文对门控循环单元和双向转换器编码(Bidirectional Encoder Representations from Transformers,BERT)进行了研究,提出了一个基于BERT隐藏层的文本情感分析模型,并通过实验证明了模型的有效性。具体工作内容如下:使用卷积神经网络提取输入文本的局部特征信息。在文本的特征提取部分,本文针对使用BERT得到的特征向量不能完全表示文本特征信息的问题,提出使用卷积神经网络获取输入文本的局部特征,这是对BERT编码的文本情感信息的一个补充。在BERT模型的表示层上增加了一个语义提取层,通过卷积和池化,提取出输入文本的局部特征。融合BERT 12个隐藏层提取输入文本的全局特征信息。BERT每一隐藏层学习到的特征都不相同,在使用BERT预训练模型时一般都是使用最后一个隐藏层的输出作为输入数据的特征表示向量,这并不能完全代表输入数据的特征。针对这一问题,本文提出一种融合BERT 12个隐藏层特征的模型。使用线性层、长短时记忆网络、门控循环单元分别连接12个隐藏层得到输入数据的12个特征表示,将其与卷积神经网络特征提取层得到的特征向量进行拼接,得到了输入数据的完整语义信息。将输入数据的完整特征向量送入下游模型进行情感分析模型训练。通过实验发现使用门控循环单元连接12个隐藏层效果最好。在此基础上提出使用门控循环单元将隐藏层进行分组,并通过实验证明使用2个门控循环单元将12个隐藏层分为2组,前6个隐藏层为一组,后6个隐藏层为一组的模型性能最好,模型的准确率得到有效的提升。情感分析系统设计与实现。将本文提出的模型应用到微博上,设计了一个微博情感分析系统。该系统通过爬取微博社交平台上的相关话题数据,使用本文提出的模型对爬取到的数据进行情感倾向分析,并将分析结果展现给用户。
其他文献
在科学技术研究中,科技发展战略是一个至关重要的问题,其难点在于如何对未来科技趋势做出准确判断。现有的科技趋势判断主要由专家经验得出,主观性较强而且不够全面;此外,判断结果主要以科技咨询报告的形式呈现,且报告需要多名专家参与撰写,耗时耗力。针对科技趋势判断中的上述问题,论文对自然语言处理领域的科技文本自动生成技术开展研究,从而为专家撰写科技咨询报告提供前置支撑。本文研究内容主要有三个部分,一是构建价
伴随着通信产业和计算机视觉技术的飞速发展,无人驾驶已经成为了科学技术和实体经济相融合的典型代表,在构建汽车产业生态和促进经济发展上都扮演着举足轻重的角色。但是,受限于现有的传感器硬件水平和感知技术,无人驾驶系统的安全性还有待提高。因此,利用激光雷达点云进行精确的三维感知,对实现高级别的无人驾驶系统具有十分重要的研究价值。本文针对现有点云目标检测算法的不足之处,分别从减少信息损失和克服点云稀疏与分布
肺炎对于儿童和老人而言,是一种患病率和致死率很高的疾病。随着现代医学技术的不断提升,人们在肺炎的治疗方面取得了显著成效。肺炎的诊断是治疗前非常重要的环节,但是由于肺部其他疾病干扰、医疗数据的爆发式增长以及相关病理医生的缺乏,导致肺炎的诊断较为困难,如何做到肺炎病症“早发现,早治疗”,对于肺炎患者的治疗效果具有重要意义。随着现代医学的发展,肺部疾病的诊断更多地依赖于对医学影像的判定。而越来越庞大的数
随着5G、大数据、人工智能、物联网等高新技术产业的快速发展,存储器的集成度和性能也与日俱增,然而传统的半导体存储器在几十年的发展后已逐渐接近其物理瓶颈,高新技术产业需要速度更快性能更好的新型非易失性存储器。目前已有多种新型存储器进入研究者的视野,在这些存储器中阻变存储器凭借其结构简单、成本低、集成度高以及和传统CMOS工艺兼容性好等优点引起了业界的高度重视。而在多种阻变材料中,氮化硅材料基于其优良
阵列雷达波形设计和接收波束形成是实现目标有效探测的关键技术。MIMO雷达由于其发射分集技术,与传统相控阵雷达相比,具有系统自由度高、抗截获能力强以及多普勒分辨率好等特性,但也具有正交波形难以实现等诸多局限性。近年来将时间步进量引入传统的阵列构型之中的新型发射分集MIMO雷达受到研究人员的广泛关注。本文针对时间分集阵子阵划分技术展开进一步研究,提出了基于不同布阵的子阵划分方法以及基于扩展Barker
安全芯片作为信息系统的组成部分之一,广泛应用于金融、军事、银行等领域,与我们的生活息息相关,确保数据在传输过程中的安全至关重要。而且随着计算机技术的快速发展,中央处理器CPU与主存储器之间的速度“存储墙”问题愈加严重,严重影响了微处理器的性能,高速缓存Cache技术是为了解决这一速度匹配失衡问题而采用的一项关键技术。在安全SOC芯片中,CPU对主存的访问一方面需要Cache确保高效率数据读取,另一
近年来,随着人工智能的飞速发展,其广泛应用于工业等各个领域,但是由于人工智能的很多技术尚未成熟,在很多方面仍然有许多改进的空间。卷积神经网络作为人工智能的核心部分,其起源于20世纪60年代,当时科学家们正在研究猫的大脑皮层,在研究过程中发现卷积权重的共享和连接节点的减少,能够大大减少了神经反馈网络的复杂性。然而,由于硬件的局限性和有效的优化算法的缺乏,这项技术并没有得到较好的开发。随着神经网络的广
车牌识别已广泛应用于自动收费、违法抓拍、监测报警等场景中,但其算法实现千差万别,且其性能也严重依赖学习及测试数据集。受采集时间、天气、图像传感器安装位置,遮挡,污损等因素影响及限制,所采集的真实场景图像数据在数量上非常有限,质量上极不均衡,成像空间也很不完备,再加上用户个人隐私等原因,无法形成统一公开完备学习及测试数据集,从而导致车牌识别算法性能评测缺乏说服力,难以防御对抗样本的攻击,继而严重阻碍
遥感图像目标检测作为一个基础且具有挑战性的视觉任务,不仅在军事领域应用广泛,如准确获取战场信息并对敌方进行精准打击。它还在民用领域具有广泛的应用,例如环境管理、区域规划和矿产资源勘探等。现有的遥感图像目标检测方法大都基于anchor boxes,这类方法会因为过多的anchor boxes引入大量的超参数,增加了内存占用以及冗余的计算量,甚至会导致严重的正负样本不平衡等问题。另外,遥感图像又具有背
战争自古以来都是人类活动中最为激烈的表现形式,一直被各民族视作重中之重。近年来,各国攻防演练技术层出不穷,战场环境更难捉摸,机群联合作战已成为现代局部战争的重要模式,以预警机系统为核心的多机种协同联合打击是当前空中攻防战的重要战法。为了在复杂作战环境下协同作战,机群打击链应运而生,并作为规划时的原则。但用好打击链,围绕任务进行指挥规划是核心关键,也是一个困难问题。本文研究了机群打击链规划的现实需求