融合情感词典和注意力机制的Bi-LSTM网评文本情感分析研究

来源 :南昌大学 | 被引量 : 0次 | 上传用户:cliff800
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在互联网快速发展,数据爆炸的时代,文本已经成为人们最为常见的情绪表达方式。对文本进行情感分析不仅可以给消费者提供参考依据,还能提升商家的整体服务机制。因此,对文本进行情感分析有着重要的研究意义。本文采用情感词典与深度学习相结合的方法,对在某点评网站爬取到的餐饮评论数据进行情感分析。本文的主要研究内容及取得的实验结果如下:(1)本文在对数据进行获取和预处理后,对网评文本的基本情感词典进行了构建。对于网评文本的基础情感词典,本文选择的是HOWNET、TSING、NTUSD这三种词典去重、合并后的结果,共得到积极情感词8243个,消极情感词12238个。而对于专业领域情感词的扩充,本文提出了点互信息和相关系数的词典扩充方法。该方法是通过在原有的点互信息模型上引入相关系数,来提高词典扩充的准确性。接着将本文提出的扩充模型与单独使用相关系数和单独使用点互信息的模型进行实验对比。结果表明:在原有的点互信息模型基础上引入相关系数的模型训练效果最好,点互信息的次之,相关系数的最差。(2)对网评文本进行情感分析,本文的情感分析模型是在Bi-LSTM的基础上进行的改进,提出了基于注意力机制和Bi-LSTM的情感分析方法Att-Bi-LSTM。该方法通过引入注意力机制,增强特征向量的提取,提高模型的性能,通过全连接方法对提取到的特征向量进行线性转换,然后将其引入到Softmax分类器中对网评文本进行情感分类。将Att-Bi-LSTM模型与CNN模型、Bi-LSTM模型进行对比实验,结果表明,Att-Bi-LSTM模型的分数值比Bi-LSTM模型的提升了1.87%,比CNN模型的提升了2.44%。(3)本文继续对Att-Bi-LSTM模型进行改进,提出了基于情感词典和Att-Bi-LSTM模型的情感分析方法Dic-Att-Bi-LSTM。该方法通过加入情感词典,增强模型对网评文本中语义的关注度,提高模型的准确率。将Dic-Att-Bi-LSTM模型与Text CNN模型、Att-Bi-LSTM模型进行对比实验,结果表明,Dic-Att-Bi-LSTM模型无论是在准确率、召回率还是分数值上,都要优于Att-Bi-LSTM模型和Text CNN模型。
其他文献
随着计算机视觉的不断发展,图像修复技术成为了一个具有重大实际应用价值的研究课题之一。图像修复技术旨在有效地将破损图像的缺失部分进行填充。现有的图像修复方法主要存在以下两个问题。问题一,对于有大面积破损的图像,许多方法都无法重建出合理的结构,使修复后的图像产生模糊或结构混乱等问题。此外,对破损图像进行连续卷积提取高层语义信息时,由于丢失了底层特征导致被修复区域与未损坏区域具有明显颜色和纹理上的差异。
学位
人手被称为人类的第二大脑。在人类正常生活中,大多数精细动作是由手部完成的。近年来,随着我国人民饮食结构的变化和工作节奏的加快,心脑血管疾病已经成为危害人们身体健康的第一位疾病,并且该疾病也是造成患者手功能障碍的主要原因。然而,当前现有的手部虚拟康复系统体验感十分枯燥并且缺乏引导性与趣味性,甚至在康复训练过程中会对患者带来二次伤害。针对以上问题,亟需设计一种更加有效、安全、有趣味性的手部虚拟康复系统
学位
文本情感分析作为自然语言处理领域中重要的研究方向,在商品调研、社会热点现象分析等许多场景中都有巨大的应用价值。而传统的粗粒度级别的情感分析侧重于关注文本中整段或整句话的情感极性,不能够准确分析句子中不同方面的情感倾向。方面级情感分析作为一种细粒度情感分析任务,可以深层次地挖掘方面词和上下文之间的隐藏关联,从而判断句子中不同方面词的情感极性。为了更加准确高效地提取方面词对应的情感特征,本文针对现有方
学位
江西省的森林和湿地资源丰富,森林覆盖率常年稳定在63.1%以上,居全国第二。茂密的森林为江西省贡献了充足的自然资源,但也使江西成为森林火灾的多发区域,每年森林火灾都给江西带来沉重的消防资源损耗、自然资源损失、生命安全损害。对森林火灾风险等级进行有效的预测评估,有助于江西省森林火灾预防工作的开展,是减少森林火灾发生次数、降低森林火灾损失的重要途径。本文选择了森林火险气象等级与森林火灾发生概率两个指标
学位
在医学、航空等图像资源稀缺的领域,传统深度学习中需要大量图像样本进行训练的要求无法得到满足,而零样本学习的出现就解决了训练阶段图像稀缺的问题,它可以通过对图像数量充足的类别的训练实现对图像资源稀缺类别的识别和分类。本文选取基于生成模型的零样本学习方法为研究对象,以提高四种不同零样本学习设置下的图像分类准确率为目标进行研究和实验。本文提出了一种改进的变分自编码器(VAE)和生成对抗网络(GAN)融合
学位
肝癌,即肝脏恶性肿瘤,在全球范围内导致患癌的主要死亡原因中位列前三,对人类生命健康构成严重的威胁,对患者家庭生活造成影响。近年来,为了帮助医生在早期做出准确的病情评估和治疗,计算机断层扫描(CT)被广泛应用于筛查、诊断和测量肿瘤体积、形状和位置。然而,从大量CT切片中手动描绘肝脏和肿瘤病变的传统方法既耗时又费力,而且高度依赖临床医生的主观经验。此外,由于肝脏CT图像对比度较低,且肝脏肿瘤组织的大小
学位
风能是一种低碳环保、经济效益高的可再生能源,因此,风能的高效利用成为世界各国的关注焦点。通过提高风速预测的准确性,可提升风电机组的控制性能和发电量,进而实现风能的高效利用,对风能的可持续发展、能源规划和经济发展具有重要的意义。针对传统机器学习方法难以有效拟合海面风速突变的问题,本文从四个维度(气象要素、季节、时序和非线形)研究海面风速预测模型,即将数值预报方法、时间序列分解方法、序列任务预测的LS
学位
近年来,非机动车的行车安全引起了国家的极大重视,非机动车违规行为的存在是导致相关安全事故频发的主要原因,针对该问题,目前交管部门主要采取交警现场执法这种监管方式,该方式需要投入巨大的人力物力且效率十分低下。随着信息技术的发展,计算机视觉技术在交通领域的应用屡见不鲜,但是大多研究对象往往是机动车。因此,本文研究并设计了一套针对非机动车的违规行为识别系统,主要对未佩戴头盔、逆行、占道行驶等违规行为进行
学位
根据GPC(Global Product Classification)分类标准,商品类别有几千种,实现快速准确的商品自动分类可以有效减轻工作人员负担。商品分类可通过商品图片、商品名称以及商品描述信息进行分类,本文通过商品名称对商品进行分类,由于商品名称属于文本且长度较短,因此本文着重研究对短文本分类方法改进并应用于商品分类任务。本文选择BERT模型进行微调并将BERT和其他模型结合应用于商品分类
学位
皮肤恶性黑色素肿瘤是一种恶性程度比较高的肿瘤,虽然其发病概率较低,但其在早期较难发现、转移快,因此死亡率较高。对于恶性黑色素肿瘤,早发现并且早治疗是治愈的关键。基于机器学习的黑色素肿瘤的分类问题已有不少研究,这些研究一般先是人工提取特征,然后对其进行分类,这样的方法较为繁琐,且提取不到较深层次的特征,导致黑色素肿瘤分类的效果一般。本论文使用深度神经网络的方法,对黑色素肿瘤图像进行分类,并使用扩充数
学位