基于深度学习算法的评论情感分析研究

来源 :南京信息工程大学 | 被引量 : 1次 | 上传用户:finney_young
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的进步,社交媒体、电子商务蓬勃发展,越来越多的商品交易评论和社交评论出现在互联网中。因此,网络中的各种评论文本迅速膨胀。若依靠人工的方法难以对网上海量的信息进行收集和处理,因此需要进行文本分析从而帮助用户快速从数以亿计的评论中获取重要信息,情感分析技术应运而生。基于词典法构建一个高质量词典需要大量的人力,机器学习方法过分依赖语句向量的特征,这些特征来自于人工选择导致选择不同的特征就会有不同分析结果。深度学习方法作为一种自主学习的分类方法,在不需要人工过多干预的条件下就可以在情感分析任务上取得较好结果。因此基于深度学习的自然语言分析成为了当前的研究热点。针对传统文本情感分析方法正确率低,深度学习方法在训练、测试与分析效率低的缺陷,本文深入研究了基于深度学习的评论情感分析技术,把主成分分析法(PCA)的高效文本分类(Fasttext)方法作为文本向量生成算法,提高生成文本向量的质量。把门控循环神经网络(GRU)和卷积神经网络(CNN)结合,建立了Attention-CNN-GRU评论文本情感分析模型,提高情感分析结果的正确率和模型训练效率。具体研究内容如下。为了提高文字转换后文本向量的整体质量,使用Word2vec的一种改进方法Fasttext。Fasttext方法利用了Hashing Trick算法和分层Softmax算法分别对Word2vec使用的向量表示法和基本Softmax分类法进行改进。Hashing Trick改进后,生成的输入词向量维数减少,再利用主成分分析法对词向量优化,提取主要特征使词向量维度进一步降低。并对Softmax分类法进行改进,建立基于分层Softmax的Huffman树,只需计算路径上所有非叶子节点词向量的贡献值,实现计算复杂度的降低。最终模型能够更快更高质量的输出文本向量。为了获取更好的准确率和更短的训练测试时间,提出结合卷积神经网络和门控循环神经网络的Attention-CNN-GRU模型。传统神经网络相临神经元都是全连接,并且神经元之间无连接,样本处理相互独立,所以不能对时间序列变化处理。门控循环神经网络可以利用时序关系处理句子,存储历史上下文信息并能够考虑到之后的上下文信息。门控循环神经单元在长短期记忆神经单元基础上将忘记和记忆窗口合并,仅由更新门和重置门组成,减少了单元内部计算量,使得计算效率提高。针对不同词语对不同任务的重要程度不同,在CNN-GRU模型的基础上,添加注意力机制,得到Attention-CNN-GRU模型。卷积神经网络的作用则是通过不断训练挖掘评论文本中隐藏特征,进行组合达到特征学习选择的目的。针对深度学习网络中关键参数对训练测试结果影响的问题,实验对比了学习率、弃权系数、批尺寸这三种参数对结果的影响。实验可以看出学习率遵循训练量越大学习率选小一点的规律,弃权系数的选取要找准适合的量,过大会导致模型效果下降,批尺寸也需要结合模型的效果择优选取。实验证明模型在评论情感分类任务上有着很高的正确率和更好的时间效率,对评论情感分析有理论和实用价值。
其他文献
白腐真菌以其强大的重金属吸附能力,在重金属废水治理研究中得到了深入研究。微生物体表面的胞外聚合物是其抵御重金属毒性的一道重要屏障,通过螯合、固定等方法改变重金属的
煤矿开采工艺和技术的不断改进促进了特厚煤层的高效开采。大采高技术一次可采煤层厚度达7m,特厚煤层综放开采技术实现了厚度超过20m煤层的开采。同煤塔山煤岩层受煌斑岩侵入
现实生活中冒犯事件不可避免,而人际宽恕可以缓解冲突、化解矛盾,有利于构建和谐的人际关系。宽恕感是指原谅别人且心安的情感,属于人际情感的一部分。全国调查研究发现,大学生宽恕感得分在人际情感中排名倒数第一,说明中国大学生宽恕感总体水平相对较低,亟待提高。从受害者视角出发,感恩感和宽恕感的正相关已经得到了理论层面的支持,特质感恩感得分高的大学生其特质宽恕感得分也较高,但这一结论主要基于问卷调查,缺少实证
互联网时代数据的爆炸增长,使得用户难以负担本地存储的巨大成本,因此越来越多的用户选择将数据外包给云服务器。然而数据的外包也使得云服务器能获得用户的敏感数据。因此为了防止用户数据遭到泄露,必须将敏感数据加密上传给云服务器,但是复杂的加密技术也使得传统的明文检索技术失效,因此可搜索加密成为了当今的热点问题。传统的可搜索加密技术大部分都是选取关键字作为文档的特征,虽然近年来基于关键字密文检索方案日趋完善
电力工业的发展水平是一个国家经济发达程度的重要标志,在国民经济中占有十分重要的地位。改革开放以来,随着我国经济的快速发展,电力投资增长迅猛,这给继电保护产业带来了前
云计算因其强大的计算功能,被越来越多的用户(企业和个人)使用。云存储也因此应运而生。用户通过将本地数据上传到云端,无需担心存储大量数据所需要的基建设施等本地消耗。但是,当数据被外包到云服务器之后,数据拥有者和云都可以对这些数据进行相关操作,容易出现内部人员盗用等安全问题。同时,第三方的攻击致使数据被隐蔽读取甚至是恶意篡改,使得数据安全及用户隐私得不到安全保障。为了应对这些安全隐患,常常需要将外包的
青狮潭水库作为桂北最大的水库,库区有机氯农药(OCPs)残留对灌溉、养殖、漓江旅游补水和桂林市饮用水源影响不容忽视。为了解该区域OCPs分布、释放及其对水生生态环境的风险,本
面制品一直都是受消费者青睐的主食,但在贮藏过程中容易回生现象,一些淀粉含量高的食品更为甚之,出现变硬、掉渣,造成口感下降。为解决淀粉回生这一问题,人们研究出各种方法,
商业竞争情报分析一直是商业中的一个重要部分,如何能够有效地识别竞争者并对其进行商业竞争分析,一直是广泛受到企业和相关学者关注的重点。而随着网络的发展及科技的进步,许多有关企业的信息被记录下来,这就给企业及相关学者对竞争者识别研究提供了一种除问卷调查方法外获得竞争者相关的竞争情报信息的途径,且由于数据获取的便捷性及实时性,许多学者开始对其进行研究,试图从网络数据中识别出竞争者。本文主要的研究工作包括
艾煊是出生在20年代的当代作家,他的一生经历了抗日战争、解放战争、新中国成立、文化大革命和改革开放等重大时间节点和事件,同时也经历了几次文学范式的重大转变。本文试图对其生平经历和创作历程,在资料收集整理归纳之后进行系统梳理,对其部分作品运用历史的、美学的方法,结合文本细读进行分析,归纳总结出其作品的独特性。本文分为绪论,正文三章和结论三部分,绪论部分是本文的研究目的,国内外研究现状,以及研究的思路