网络短文本情感分析技术研究及应用

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:Bai_cat
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,互联网科技在人们的生活中至关重要,网络上产生了很多表达情绪、观点的语句。这些海量的短文本信息不仅能够对个人决策提供帮助,而且对企业运营、产品优化等方面也具有很高的价值。因此,对网络短文本的情感分析成为了重要研究方向。自然语言处理技术实现了人和计算机之间的有效通信,机器学习和深度学习近几年已经在文本分析领域取得了非常好的成效,然而大多数算法在词向量的获取、语义信息的挖掘,以及模型优化等方面,还存在改进空间。本文主要对网络中的短文本评论数据集进行情感分析,对现有的机器学习和深度学习算法进行改进,主要工作内容如下:(1)针对传统分词方法过分依赖于词典和规则库的缺陷,引入CRF模型对短文本评论数据集进行中文分词。CRF分词方法不仅可以捕捉到句子情感之间的语义特征,还可以添加外部特征来丰富模型收集到的信息。实验结果表明,CRF分词方法获取的特征在逻辑回归、支持向量机和伯努利朴素贝叶斯三种机器学习算法中分类准确率远高于使用传统分词方法获取特征的情形,并且传统分词方法负面分类效果远优于正面,而CRF分词算法对正面和负面的分类结果相对均衡。特征维度为1800时,采用支持向量机和CRF分词组合构建的分类模型准确率达到了88.3%,对短文本情感分析的效果最好。(2)针对常用的Word2Vec词向量模型不能解决一词多义的问题,提出使用融合Word2Vec和BERT向量解决四类别短文本情感分析问题。与单一的Word2Vec模型和BERT模型分别获取的词向量相比,融合向量能够充分考虑语义之间的信息从而更好地提取多类别的短文本情感特征。将融合向量嵌入到GBDT机器学习算法中进行实验。实验结果表明,融合向量和GBDT算法对多类别短文本的情感分析问题更有效。(3)针对传统的深度学习算法在网络持续时间较长的情况下容易产生长期依赖的问题,提出了改进的CNN模型,即CNN-BLSTM模型。CNN-BLSTM模型既能够利用卷积神经网络提取文本的主要特征信息,又可以通过双向长短期记忆网络解决这种长依赖问题,从而在训练模型的过程中捕捉到文本的双向语义信息,同时模型中增加了Dropout函数优化了训练效果。实验结果表明,CNN-BLSTM模型预测五类别短文本情感的精确率和F1值达到了72.6%和72.4%,比CNN模型分别提升了3.6%和4.2%,取得了更好的分类效果。
其他文献
基于神经网络的深度学习技术目前已广泛应用于各个领域,一旦神经网络模型遭到攻击,将对人们的隐私和财产安全产生巨大的威胁,因此神经网络模型的安全性成为研究热点。对抗样本生成技术是攻击网络模型以及检测网络模型鲁棒性的关键技术,同时对该技术的研究有助于推动对抗防御技术的发展,帮助提高神经网络的可解释性。本文关注图像识别下的对抗样本生成问题,主要从白盒场景中的对抗样本生成、黑盒场景中基于迁移和基于查询的对抗
学位
近年来,随着物流业及其相关产业的快速发展,对最优路线规划的需求也在日益增加,由此而产生的车辆路径规划问题同时吸引了众多研究者的关注。其中,多仓库车辆路径规划问题的应用尤为广泛。这类问题考虑到实际中的多个仓库作为路径的起始点,以配送的形式,在适当的时间将一定数量的货物在顾客之间运送,实现生产与消费的无缝连接,最大程度地满足客户的消费需求。多仓库车辆路径规划问题本质上是离散型约束多目标优化问题,特点是
学位
目的:雷公藤红素具有抗炎症反应、抑制肿瘤血管生成、抑制肿瘤生长、抑制肿瘤转移等多种药理作用。为了揭示雷公藤红素抑制肝癌转移的重要机制,我们在研究肝癌转移的过程中发现细胞骨架蛋白Ezrin的Thr567位点的磷酸化改变能够抑制肿瘤细胞的侵袭和转移。为进一步研究雷公藤红素是否通过影响Ezrin磷酸化实现抑制肝癌细胞迁移的作用,通过蛋白质免疫沉淀实验检测细胞裂解液中Ezrin磷酸化水平,对肝癌迁移进行研
学位
近年来,在大数据和大模型的背景下,分布式机器学习成为了主流的解决方案。而传统的集中存储式的分布式机器学习存在隐私泄露等问题。联邦学习旨在以保护隐私的方式有效地利用数据孤岛的数据训练统计模型。联邦学习已成为活跃且有巨大前景的分布式机器学习新范式。当前联邦学习存在几个关键且艰巨的挑战:统计异质性、通信成本昂贵、个性化能力不足。统计异质性指的是联邦学习中客户端之间的数据分布存在差异,这种非独立同分布特性
学位
容器化技术具有支持快速部署Web应用程序和提高云数据中心资源利用率等潜力,因此它被广泛应用到微服务架构中。尽管现有的容器化技术已经得到了很好的发展,然而,随着用户对应用需求的不断增长,导致云数据中心对计算资源的需求也不断增长。因此,如何有效地解决应用程序的快速部署和提高云数据中心的资源利用率,从而减少物理机的使用数量则成为亟待解决的问题。容器部署是一个NP难组合优化问题。进化算法作为一种成熟的具有
学位
遥感图像中的语义分割,对土地调查以及灾后土地管理恢复等方面具有重要的实用价值。由于不同数据域的遥感图像中,地物细节信息丰富,地貌情况也各不相同,数据集标注难度大,使用传统方法存在模型学习效率较低和泛化性弱的问题。因此针对遥感图像语义分割的域适应方法具有十分重要的意义。随着大数据时代的到来,深度学习算法得到了高速发展,基于卷积神经网络的语义分割方法也层出不穷。本文在总结并分析国内外域适应遥感语义分割
学位
甲醇在工业中的应用非常广泛,铜基催化剂催化甲醇分解是低成本利用甲醇的方案之一。本文选择了表面铜原子配位数分别为9和7的密堆积Cu(111)表面和较开放的Cu(110)表面,利用平板超胞模型、周期性密度泛函理论和微观反应动力学原理,结合遍历历史求和表象方法,对Cu(111)和Cu(110)表面催化甲醇脱氢分解涉及到的基元反应进行热力学和动力学研究。首先,本文研究了反应网络中的9个反应中间体在Cu(1
学位
昂贵优化问题,指优化问题的评价难以用函数的形式表示,或评价一次需要较长的时间。在工程领域和理论实践中,存在着许多昂贵优化问题,如电力系统的控制器参数整定,需要消耗较长的时间获取评价值。优化中常用的元启发式算法能够获得令人满意的解,但是需要非常多的评价次数。对于昂贵优化问题,评价次数高等价于时间等资源成本的增加。为了在很少的评价次数内、快速收敛到更优解,近十几年来,专家学者们提出用代理模型近似昂贵的
学位
改革开放40年来,美国多次主动对中国单方面发起贸易摩擦,利用市场经济地位问题牵制中国。中美经贸关系经历了从破裂到合作再到制裁、从贸易自由化到贸易保护主义的历史巨变,摩擦领域逐渐从劳动密集型产品转向技术密集型产品。自2006年始,中美摩擦从贸易领域转向科技领域,美国对华的实施战略从贸易战转向科技战,以及2017年特朗普政府发起的“301调查”所引发的中美科技脱钩,导火索指向《中国制造2025》中着力
学位
随着大数据时代的到来,日益累积的金融时间序列数据在人们日常生活中扮演着重要的角色.金融数据的波动是由多个影响因素以某种方式相互混合的结果.在没有任何先验知识的情形下,从金融时间序列数据自身出发,去寻求数据的内部形成机制,这将有助于人们对数据的进一步认识,更好地服务于大众.独立成分分析(ICA)作为一种经典的数据分析工具,可以仅从观测数据出发,估计出数据产生的隐变量模型和相互独立的隐变量,挖掘数据产
学位