基于深度学习的微博文本情感分析研究

来源 :兰州理工大学 | 被引量 : 0次 | 上传用户:holdingmanzsk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
21世纪,科学技术飞速发展,平板电脑、智能手环等便携式移动终端越来越普及,互联网潜移默化地改变着我们每一个人,通讯的便捷可以让天各一方的人们随时随地交流信息,表达看法,例如微博、视频弹幕、音乐评论、商品评论、微信朋友圈等各种形式的交流方式层出不穷,尤其是微博,已经成为广大民众交流的热门平台。对互联网上的这些承载着人们主观情感的文本进行收集并分析,提取民众对一些事件的看法和情绪,对政府决策、舆情监控、企业公关、突发事件等领域具有重要的意义。文本情感分析,又称为文本意见挖掘,是对文本中蕴含的潜在情绪、观点等信息的分析、总结、归纳,是涉及深度学习、自然语言处理、概率统计等领域的综合性研究课题。相较普通文本,微博文本更简短、更口语化、每个人的表达习惯各不相同,呈现稀疏的、不规则的特点,因此,针对微博短文本的情感分析愈加困难。本文首先对微博文本情感三分类进行了研究,综合考量局部语义、句法结构以及上下文语境,提出一种多特征融合的微博文本情感分析模型。其次,由于三元文本情感分析的分类较少,为了更好地满足实际情况,本文对微博文本情感多分类进行了进一步探究,从向量表征和分层特征提取两方面入手,提出一种基于BERT和层次化Attention机制的微博情感分析模型。本文的主要研究工作如下:1.针对现有的微博情感分析方法不能从句法结构、上下文信息和局部语义特征等方面综合考量文本语义信息的问题,提出一种基于特征融合的微博文本情感分析方法。首先,采用Jieba分词工具对微博评述文本进行分词,并通过FastText进行词向量的预训练。然后,将词向量分别作为引入Self-Attention的BiLSTM和TextCNN的输入,使用引入Self-Attention的BiLSTM从文本的句法结构和上下文信息两个方面综合提取全局结构特征,通过TextCNN提取文本的局部语义特征。最后,将全局结构特征和局部语义特征进行融合,送入Softmax完成情感分类。实验结果表明,该方法可以有效增强微博文本情感分析模型的性能。2.针对上述微博情感分析模型由于使用Word2Vector或GloVe等静态词向量方法,不能很好地解决一词多义问题;以及使用单一词语层Attention机制未能充分考虑文本层次结构的重要性,对句间关系捕获不足等问题。提出一种基于BERT和层次化Attention的微博情感分析模型BERT-HAN(Bidirectional Encoder Representations from Transformers Hierarchical Attention Networks)。首先,通过BERT生成蕴含上下文语意的动态字向量;然后,通过两层BiGRU分别得到句子表示和篇章表示,在句子表示层引入局部Attention机制捕获每句话中重要的字,在篇章表示层引入全局Attention机制以区分不同句子的重要性;最后,通过Softmax完成情感分类。实验结果表明,本文提出的BERT-HAN模型能有效提升微博情感分析的Macro F1和Micro F1值,具有较大的实用价值。
其他文献
当下,新冠疫情冲击持续衍变,国际宏观经济环境面临诸多不确定因素。我国如何在稳定经济增长的同时,防范金融风险的积累和扩散,是一个举足轻重的时代命题。系统性风险定义的核心思想是风险的传染,即一个经济主体所面临的冲击,向经济系统中的其他主体迅速传递。因此,监测和控制风险在经济主体间的传染,是当下防范化解系统性风险的重点。网络模型为研究该种风险之关联性质提供了有力工具,其研究范式将各个经济主体视作网络中的
学位
近年来,数字经济在信息技术革命的推进下快速发展,它在刺激消费、带动投资、增加就业、提升创新力和竞争力等方面都具有重要的贡献。如今,中国经济进入高质量发展阶段,制造业也处于转型升级的背景之下,长三角作为我国制造业先进水平的地区之一,其数字经济发展水平更是呈现出较强的发展势头。如此一来,长三角地区如何利用好客观优势,促进数字经济与传统制造业充分融合发展,从而推动制造业提速升级,对其他地区制造业升级具有
学位
新冠肺炎疫情自2020年年初爆发以来,一直是各国媒体关注的热点。新闻作为最具渗透力和传播力的媒介,具有客观性和社会属性,是公众获得信息的重要来源。然而,在新闻报道的过程中,报道者通常指而不明地表达意识形态,使读者的认知和判断发生偏移,给读者以误判。批评性话语分析,作为话语分析领域的一个重要分支,旨在揭示语言、意识形态和权力之间的关系。但作者发现,目前对新冠肺炎疫情的新闻报道进行批评话语分析的研究并
学位
相较于生产社会而言,消费社会就是从消费的视角来研究和评判当代社会。自上个世纪八十年代以来,我国的经济水平飞速发展,物质水平显著提升,中国也由生产型社会转向消费型社会。琳琅满目的商品使得消费内容日趋多元,国民经济的发展也逐渐掀起了全民性的消费热潮。身体消费是和历史文化相伴而生的一种消费形式,自古有之,但是到了消费社会,身体从边缘走到了中心。尤其是女性群体对于身体的关注,使得身体消费成为消费社会中无法
学位
近几年,计算机科学发展,在以大数据、物联网、虚拟化、移动应用领域为核心内容的技术支撑下,全球迎来了数字化的时代。新兴企业快速崛起,传统企业加速转型,数字化转型的价值也在持续变革中更加深刻,转型的范围与内涵也在变得更加深入。例如南方电网提出“数字南网”,阿里、京东为代表的互联网企业也正在通过数字化转型赋能。自上个世纪80年代起,各产业逐步加快企业转型,越来越多的企业更青睐于资产投资少,经营方式灵活的
学位
“十三五”时期,我国大力推动创新创业发展,创新创业发展融入到经济发展中,促进我国经济发展迅猛,成效显著。“十四五”时期也将继续大力推进创新创业,营造创新创业的良好氛围。高校作为创新创业人才培养的主体,承担了国家创新创业的主要职能,同时承接了教育融合实践、创新成果转化的功能。高校众创空间是高校创新创业教育的最佳实操平台,可以帮助学生将所学的专业理论应用到实践中,真正的提升自身创业能力、创新精神和领导
学位
目前铁路电磁环境越来越复杂,有意或无意电磁干扰对列车运行控制系统(简称列控系统)的骚扰日趋强烈。应答器传输模块(Balise Transmission Module,BTM系统)作为列控系统中点式车地通信的关键模块之一,暴露在空间当中,容易受电磁脉冲干扰,严重威胁到列车的行车安全和效率。本文以河北省电磁环境效应与信息处理重点实验室实际课题为背景,针对BTM系统开展电磁脉冲耦合效应试验研究,主要工作
学位
随着工业控制系统领域中无线通信技术的迅速发展,Wireless HART作为国际无线标准,因为其低成本和强扩展性在工控现场有着广泛的应用。但其更开放的通信方式使得受到外部攻击的可能性增加。目前国内外有许多对于无线协议安全的研究,但是都侧重于协议自身安全功能方面的实现,对于协议形式化建模安全评估具有一定的局限性。针对上述研究现状,本文以Wireless HART协议作为研究对象,对于协议后期的安全检
学位
互联网金融行业如今正面临来自信贷风险管理的巨大挑战。在高维度、大批量、多缺值、快更迭的互联网大数据环境下,往日的成熟模型正在快速失效,对预测模型的新需求却已纷至沓来。激烈的金融业务竞争,要求新的预测模型准确、稳定、快速、实用且能敏捷迭代,然而当前的信贷风控研究却多聚焦于算法或模型的改良上,业界亟需对可复用数据挖掘流程的优化研究。本文认为,上述互联网信贷业务和金融风控工作对违约预测的多维度实际需求,
学位
近代学校博物馆由来华传教士率先创办,在当时有识之士的提议和清政府政策的支持下得以发展。作为近代教育的补充,学校博物馆对学校教育、社会教育都起到了不小的作用,不仅促进了近代教育的发展,也为近代中国博物馆事业的发展做出贡献。而近年来我国博物馆事业虽蒸蒸日上,学校博物馆却未能复苏。因此探究近代学校博物馆的发展情况,对于思考当下如何建立学校博物馆并使之更好地服务于教育具有借鉴意义。本研究在广泛搜集近代学校
学位