基于深度学习的中文文本情感分析研究

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:drally
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web2.0技术的飞速发展,社交网络已成为人们生活中不可或缺的一部分,人们在网络平台上发表自身观点,由此产生了大量带有情感信息的文本数据。通过情感分析技术对文本进行文本数据挖掘,发现文本中存在的情感信息,对各行各业有着十分重要的意义,因此情感分析成为了自然语言处理中最活跃的研究领域之一。近年来,深度学习在自然语言处理领域得到了广泛的应用,并取得较好的效果。本文研究基于深度学习的中文文本情感分析方法,主要工作包括以下几个方面:1.研究了网络爬虫技术,针对网站特点,设计网络爬虫方案,通过Python3的Scrapy框架,实现了对数据的并行爬取,将爬取数据格式化存储至MySQL数据库中,构建了大规模中文文本情感分析语料库。2.研究了情感词向量的生成,提出了一种有效的情感词向量生成方法。该方法主要是通过在预训练词向量上加入情感信息得到情感词向量。具体实现方式是基于构建的大规模中文文本情感分析语料库训练词向量,并通过语料库和SO-PMI方法生成情感词典,再通过将词向量与词语的情感分数进行拼接得到情感词向量。本文在三种预训练词向量上,对该方法进行验证,实验结果表明,该方法的应用有助于情感分析任务的效果提升。3.提出了一种新型网络架构:BLSTM-MultiAtt-CNN,该模型包括BLSTM层、多通道自注意力编码层和注意力CNN层。首先通过BLSTM层对语句序列进行编码,捕获上下文信息,然后通过多通道自注意力编码层对全局信息进行捕获,注意力CNN层对局部信息进行捕获,最后再将全局信息和局部信息进行拼接,作为文本所包含情感特征的向量表征。本文通过多组参数对比实验确定了模型中超参数的最优值,并通过与多种模型进行对比实验验证了该模型的有效性。4.实现了基于BLSTM-MultiAtt-CNN模型的RESTful API情感分析服务。本文使用Flask框架搭建Web系统,整合模型,提供RESTful API服务,实现了该服务的可视化展示,并使用Docker对服务封装,便于服务部署。
其他文献
胃癌、大肠癌均是常见恶性肿瘤。因此,对胃癌、大肠癌的基础和防治研究向来是重要的医学课题。nm23基因是当前颇使人感兴趣的被认为具有抑制肿瘤转移功能的基因。该基因定位于
以适于油炸加工的马铃薯品种"大西洋"为原料,经过漂烫、冻结和真空油炸等工序制得即食型酥脆薯条,采用质构仪、色度仪、气相色谱-质谱联用仪(GC-MS)研究酥脆薯条的品质特征,
以辽宁国、省、县道路的检测信息和路况信息为基础,在系统中引入GIS管理公路空间分布信息,采用关系数据库管理道路的属性数据。利用GIS与外部数据库的接口,将空间数据与属性
目的通过对不典型肺结核影像学特征的探讨、分析,研究不典型性肺结核的影像学特点,旨在提高对不典型肺结核诊断的准确性。方法分析本院5年来确诊的17例不典型肺结核的临床症状
随着Android系统的迅猛发展,Android系统已经成为全球使用最广泛的手机操作系统,而智能手机已经成为生活、学习和工作中不可或缺的一部分。正在和将要使用Android智能手机的
“拿起手机,发送短信‘DF’到指定特服号,您就能向受灾国人民捐款一元钱。”这是记者在泉州的一位同学告诉记者给灾区人民捐款的方式。面对东南亚、南亚和非洲部分国家遭受强烈
报纸
<正> 概述聚四氟乙烯系用氯仿与氟化氢为原料,经反应、高温裂解、分离提纯和聚合等工序制得。聚四氟乙烯具有极为优异的化学稳定性,其化学稳定性是迄今任何其它有机聚合物所
【目的/意义】准确掌握突发事件网络舆情的演化规律,提高政府应对能力,避免事态恶化是刻不容缓的课题。【方法/过程】本文首先从生命周期和社会燃烧视角,将突发事件网络舆情
肾癌是常见的泌尿系恶性肿瘤之一,其发病率占泌尿系肿瘤第二位。目前普遍认为肾癌的发生发展是一个多基因、多阶段的过程,涉及多种基因的改变,包括编码参与DNA修复、信号转导和
<正>郫县属岷江上游的都江堰自流灌溉区,气候湿润,雨量充足,土壤疏松肥沃,水质条件好,特殊的自然条件孕育了郫县豆瓣等一大批调味品企业。郫县作为川西平原的典型