面向中文文本的神经网络模型情感分析研究

来源 :天津工业大学 | 被引量 : 0次 | 上传用户:manstation
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着5G时代的到来,数据资源将迎来爆炸式的增长,在自然语言处理方面,激增的主观文本为情感分析提供了充足的语料。传统的人工特征选择容易造成分割语义不准确的问题,浅层机器学习分类器较深度学习网络模型而言,分类的准确率提升空间有限。与英文不同,中文是一个由汉字组成的、数量十分庞大的语言体系,其多样的表达方式和复杂的语义为中文情感分析带来了巨大的挑战。为了有效地提取句子的语义特征,保留特征词的同时去除无关噪声,降低向量维度,提高情感判别的准确率,本文做了如下研究工作:(1)高质量的预处理结果对后续网络模型学习有着重要意义,于是提出了一种基于情感词典结合Word2vec增量训练的算法模块(SL-W2V-Plus),用于特征选择和词向量训练。首先,对评论数据集进行数据清洗;其次,通过加载自定义的两个情感词典对数据集进行分词操作;然后,将去停用词结果通过Word2vec算法训练得到词向量模型;最后,加入大型语料库对模型做增量训练,得到词与词之间的关系。实验结果显示,基于SL-W2V-Plus特征工程的方法在神经网络模型的F1值和准确率上有约1%-2%的提升,证明了所提方法的有效性。(2)为了解决单一卷积神经网络缺乏同层信息互传和简单的循环神经网络无法解决长时间依赖的问题,提出了基于层级网络CNN-Bi LSTM引入注意力机制的(Hierarchical network CNN-Bi LSTM introduces the Attention mechanism,HCBLA)情感分类模型。首先,利用卷积神经网络局部特征学习能力强的特点,深层次提取短语特征;其次,利用双向长短时记忆网络对句子信息进行序列化学习,得到句子体系特征;最后,添加注意力层对句子加权求和筛选有效特征,用二分类函数对结果进行分类。在数据集上进行了多组对比实验,结果表明所提的HCBLA模型在处理中文文本分类的问题上取得较好的F1值和准确率,且具有较好的应用能力。
其他文献
神经网络的发展和大型数据集的增多,以及计算机硬件运算能力的提升,使得基于深度学习的技术在单模态(图像、文字、语音)已经取得的巨大的发展和应用。但是,多模态理解和交互等人类高级认知和推理功能还是很弱。针对这个问题,本文研究多模态交互领域一个极其重要的研究课题——视觉问答(VAQ)。视觉问答涉及图像和文本两个模态的信息,由于卷积神经网络(CNN)和循环神经网络(RNN)分别在图像和文本上的突出表现,许
随着汽车自动避障技术和服务机器人的逐渐发展,路径规划已经成为了移动机器人技术领域的热点问题。作为人工智能领域的深度强化学习由于不需要人工标记和不需要依赖先验知识的优势,目前多个领域已经结合实际应用对其进行了研究开发,同样在机器人路径规划任务中也有该方向的研究。本文使用单目相机作为机器人的感知手段,研究基于深度强化学习的室内自主避障问题。首先,在编码器-解码器网络结构的基础上,采用监督训练的方式,提
随着机械制造技术的飞速发展,高速电主轴成为了当今数控机床的核心部件,对其性能的要求也越来越高。电主轴是否具有优良的动态特性成为了确保机床加工精度高低的必要条件。轴承受预紧力的作用影响其接触刚度,高速时转速的变化导致轴承摩擦热的产生影响了接触变形进一步影响接触刚度。轴承作为电主轴的支撑部件其刚度又决定着电主轴的动态特性。本文以赫兹接触理论、摩擦理论、传热学、转子动力学理论为基础,分析多工况条件下的电
随着互联网的快速发展,网上产生了大量的产品评论,这些产品评论中往往蕴涵着许多有价值的信息,通过分析在线产品评论的情感倾向可以为用户和商家的决策提供支持。目前,互联网文本评论的情感分析已经成为文本挖掘的热门领域,基于神经网络的情感分析方法虽然克服了机器学习方法存在的特征提取困难的问题,但是神经网络仍然存在无法感知不同单词的重要程度、无法学习句子的内部结构和无法利用单词的位置信息等问题。同时,产品评论
随着科技的进步以及工业和制造业的快速发展,机器人逐渐被人们熟知并扮演越来越重要的角色。近年来,移动机器人以结构简单、易于控制、适合二次开发等优势成为研究热点。而在移动机器人领域的众多研究方向中,避障以及安全性研究是其中非常基础与重要的内容。本文以移动机器人为研究对象,对移动机器人在多种障碍物环境中的避障性能以及安全性、实用性问题展开深入研究,并以Turtle Bot3机器人为实验平台,利用ROS(
对船舶发动机燃烧室的温度场进行二维测量,对于改善发动机的燃烧效率、提高使用寿命以及实现节能减排具有重要意义。针对非接触、高时空分辨率等测量需求,本文基于可调谐半导体激光吸收光谱(TDLAS)技术,结合卷积神经网络(CNN)算法,开发了一套二维温度场测量系统,旨在用于发动机燃烧室的燃烧温度场的二维重建。第一,发展了一种基于CNN的二维重建算法。首先对水蒸气的吸收谱线进行优选,确定H2O在6807.8
随着我国老龄化问题日渐严重,大家开始重视老年人生活各项问题,为了改善脑卒中老年人和弱能老人的生活质量,迫切需要能够帮助他们恢复行走能力的设备。在过去的十年中,外骨骼等机器人辅助设备研发能力取得了巨大的进步,有些产品已经商业化。但是长期以来,对老龄下肢助行外骨骼机器人的研究主要集中在技术和机构上,对老年患者心理认知和知觉需求的研究相对较少。且市场上大多数产品风格单一,造型生硬,没有真正满足老年人的使
伴随着互联网、云计算、5G技术以及自媒体行业的不断发展,人们每天所产生以及获取的信息越来越多,并且这些信息大部分都以文本的形式存在。自动文本摘要技术能快速地帮助人们在海量文本中获取主题明确、可读性高的信息。针对传统基于深度学习的文本摘要技术无法生成高质量的长文本摘要问题,本文探究了一种基于强化学习的深度代理文本摘要生成技术。主要工作如下:(1)面对循环神经网络在对长文本进行编码时容易丢失先验信息的
脑机接口(Brain-computer interface,BCI)是一种允许人脑与外部设备实时交互的通讯或控制系统,有助于残疾人士重新获得对外界交流和控制能力。在脑机接口中,稳态视觉诱发电位(Steady-state visual evoked potential,SSVEP)是一种比较常用的人机交互系统输入信号,但其往往需要一种固定的电脑屏幕作为视觉刺激器,限制了其应用的灵活性;机器人通常作为
篦冷机是水泥熟料生产过程中的关键设备,篦冷机相关控制参数的调节对能源的消耗和产品质量以及相关设备的稳定运行都具有重大影响。由于水泥生产的控制过程比较复杂,属于慢过程参数控制,导致篦冷机各控制参数存在严重的时间滞后性,而且不同控制参数的滞后时间也不相同,这为篦冷机的优化控制带来极大的困难。本课题以水泥生产中的关键设备--篦冷机为研究对象,就如何建立高精度的篦冷机参数预测模型和如何优化相关控制参数展开