基于BLSTM的中文短文本情感分析算法研究

来源 :西北大学 | 被引量 : 0次 | 上传用户:shilei881222
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本情感分析是依据文本数据提供的特征计算该文本的褒贬等情感倾向,为制定决策提供有效依据。文本情感分析是自然语言处理的基本任务,是人机交互、人工智能的关键技术之一,被广泛应用于国防建设、政府管理、舆情分析、医疗卫生及商业等领域,通过大数据文本分析,可为国家方针政策制定、社会改革、企业经济运行及个人的日常工作生活等提供辅助支持。目前,已有的情感分析算法虽然已经取得了一定的效果,但是,依然存在着一些问题和挑战。例如,词向量的文本表示方法存在分词歧义及无法表示一词多义的现象;普通神经网络方法无法很好地识别短文本稀疏特征中更重要的部分,不能充分利用文本的句法结构等信息。针对上述问题,本文主要研究内容包括:1.针对目前中文信息处理领域以词向量表示文本时对分词准确性要求较高,无法处理分词歧义与一词多义现象的问题,提出一种改进的基于字向量的双向长短时记忆网络(Bi-directional Long-Short Term Memory,BLSTM)情感分析算法。利用字向量对中文短文本进行细粒度表示,通过BLSTM网络捕捉句子的上下文语义信息,降低了分词可能产生的噪声对算法性能的影响,有效提升了短文本情感识别算法的精度。2.针对传统神经网络算法无法更好的关注中文短文本的局部关键特征,对全局信息拟合能力较弱的问题,提出了基于自注意力机制和BLSTM的情感分析算法。采用BLSTM编码文本序列后利用自注意力机制进行动态权重调整,结合全局语义信息得到关键特征,仿真实验表明该算法的性能得到较大提升,在两类数据集上最好的F1测度分别为89.74%和91.10%。3.针对现有深度学习算法未考虑句子的层次结构及语义信息的问题,提出基于分治策略和SATT-BLSTM的情感分析算法。该算法利用分治策略,以字向量为单位自底向上融合为短语向量,再得到句子的情感特征表示,同时引入句子的结构信息用于情感判别,实验结果表明了该算法的有效性和可行性。
其他文献
CIS战略设计是一个有机的整体,作为塑造企业形象的重要工具,已为国内外企业在树立企业形象、打造企业品牌时广泛采用,许多企业也因此走上了脱离困境或快速发展的道路。 面对
前言 随着人们生活方式的改变及社会老龄化的到来,脑血管病逐渐成为人类主要死亡原因之一。而因脑血管病死亡的人群当中,85%是由于颅内外血管阻塞造成的脑缺血。因此,研究缺血
复习是学生备战高考不可缺少的环节,有效复习可以帮助学生理清知识和攻克学习难题,进而在高考中取得优异成绩。高中生物涉及多个方面,教师要在复习中融入新思维和全新的教学
目的:分析五脏温阳化瘀汤对动脉粥样硬化(AS)大鼠JAK2/STAT3信号传导及IL-6/STAT3信号通路影响。方法:选取SPF级Wistar雄性大鼠45只,随机数字表法将大鼠分成3组,正常组、模型
采用时间序列样方调查胶林物种多样性,初步研究了胶林的植被类型、演替规律及生物多样性的变化,并与不同的群落类型进行了比较,探讨了生物多样性在维持地力方面的生态服务功能。
研究背景 肾母细胞瘤是小儿常见的腹膜后恶性肿瘤,最常发生于2~5岁儿童,发病率占儿童恶性肿瘤的6%,多首先因腹部肿块、血尿而发现,部分患儿可有高血压,偶有低热和腹痛。B超、CT及静
工程招投标制在我国的实际运用中产生了大量的问题,对这些问题的解决是社会各界人士共同关注的话题。其中,不科学的评标方法是很多问题产生的根源。本文分析了我国现阶段在建设
鲁迅和汪曾祺这两个生活经历、志趣和性格不同的作家在他们的部分创作中不约而同地采用了童年视角,但两者采取此视角的原因,对此视角的运用以及所达到的效果却是全然不同的。以
锅炉是最常用的热工设备,其要求是供给合格的蒸汽,使锅炉产汽量适应负荷的需要。本文针对中国长城铝业公司热力厂工业锅炉的具体情况,研究了以下内容:利用锅炉燃烧特性分析和热工
水声信道中广泛存在着多径传播效应。由多径传播引起的信号衰落现象是影响水声通信系统性能的主要因素。本论文在分析这些因素的影响之后,设计并制作完成了一个多载波高速水声