基于机器学习的文本情感分析研究与优化

来源 :北京邮电大学 | 被引量 : 4次 | 上传用户:chengzi1022
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本情感分析一直以来都是自然语言处理领域非常重要的一个课题,在当今互联网全面普及的时代,各大社交媒体平台上信息爆炸式增长,各大电商平台下评论数不胜数,广大网友在网上发表带有情感倾向性的意见的机会越来越多,为文本情感分析这个课题提供了海量的数据。海量的数据中往往包含极有价值的信息,比如社会热点事件的舆论动向,电商产品的评价带来的潜在收益,股票市场里各种事件表象之下的暗流涌动等等。如何能够有效地利用情感分析技术去挖掘这些数据中隐含的信息,显然是一个非常有研究意义的课题。基于机器学习的文本情感分析技术发展由来已久,从最初的借助情感词典打分,到抽象文本特征引入支持向量机、朴素贝叶斯等各种分类器,再到当下最流行的深度学习。深度学习在2006年由Bengio提出概念,随后被广泛地应用到图像识别、语音识别以及自然语言处理的领域,取得了许多不俗的突破性进展。作为其中最流行的神经网络模型之一,循环神经网络因其突出的序列处理能力,被广泛应用于自然语言处理的词性标注、机器翻译、命名实体识别等问题中。本文着眼于文本情感分析的两个环节,文本情感分类和中文分词,作者对技术发展过程中具有代表性的技术做了深入调研,重点研究了基于深度学习的文本情感分析技术,并做了归纳和梳理。选择循环神经网络作为本文重点研究的模型,并针对文本情感分类和中文分词两个场景的特点做了相应的模型改进,主要工作可概括如下:首先,对于文本情感分类任务,本文采用长短时记忆循环神经网络LSTM,以克服普通循环神经网络存在的梯度消失或梯度爆炸问题,在此基础上引入双向LSTM以达到更加充分地利用上下文信息的目的;构建了主题级别的情感分析模型,有效地挖掘出句子中尽可能全面的多角度的情感倾向性;最后引入了注意力机制来达到有侧重地利用上下文信息的目标。其次,对于中文分词任务,本文将其看做词位标注加序列生成序列的组合问题来进行研究,在使用双向LSTM的基础上,引入了经过改进的注意力机制。在保证合理利用信息的同时,通过规定注意力运算窗口大小,对注意力的运算做了效率上的优化。
其他文献
介绍了水仓煤泥自动清挖回收工艺与设备的主要结构与工艺原理、操作步骤及应注意的问题,该设备的应用效果和推广应用前景。
通过统计与分析深圳市地铁二期工程在建设期所发生的安全事故,发现坍塌是地铁工程建设期间的多发事故,地铁工程在基坑工程、盾构推进、隧道暗挖和高支模施工的过程中易发生安
用自制的灭活菌苗一次或两次免疫妊娠母猪,其所产的仔猪,于5~7日龄攻击强毒Ⅰ相菌,可获得平均95.3%的病变减少率;初乳K抗体价为8万~16万倍;仔猪攻击时血清传递K抗体价一般为4万~8
<正>"从前书信很慢,车马很远,一生只够爱一个人。"每每读起这句话,脑海里都会映出一幅唯美、安逸的画面。曾经的一切都是那么的简单,漫长的时间线上牵动的是人们不紧不慢的生
数学学习障碍是学习障碍的一个亚型,是因数学能力的缺损而导致学生在数学学习上的落后,即明显落后于同年龄或同年级的水平的现象,表现为数学领域中的学习困难。国内外研究者
用粘度法,GPC和LALLS测定了线型及不同转化率的PVAc分级级份的粘度与分子量。提出了以线型和支化聚合物的K,α计算临界分子量的方法。讨论了表征PVAc长链支化的各种参数与分
<正> 1 食品营养与食品加工食品是人类生存和繁衍的物质基础。早期,人们对食品和营养的认识仅仅是为了生存。以后逐渐发展到利用食物来治病,争取健康长寿,如我国古代就有“民
晋煤集团多数矿井为高瓦斯矿井,且采高比较大,采动过程中矿压显现比较明显,造成回采巷道变形比较严重,需要对巷道进行注浆加固。通过研发应用一种新型的无机材料,解决现有煤
介绍了在UnigraphicsCAD系统上 ,采用参数驱动方法设计的1副孔径可变的PVC水管弯头快速可换型芯注射模 ,该模具通过更换型芯、型腔镶块和侧抽型芯可生产不同孔径的弯头塑件 ,