基于情感词典拓展和词向量的中文情感分析技术的研究

来源 :辽宁大学 | 被引量 : 0次 | 上传用户:xinyang101
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
情感分析是一门涉及到自然语言处理、数据挖掘及人工智能的一门技术,并且最近已经成为了一个热门话题。所谓情感分析是通过挖掘和分析文本中表达的内容,从中识别出情感信息(比如表达的是消极、积极还是中立)。本文所研究的情感分析是基于中文方面的,从中文文本中获得情感极性(积极或者消极)。情感分析比较关键的因素包括:情感词典、语义上下文信息、词序以及情感信息等。但是传统情感分析方法存在许多不足:现存情感词典覆盖度比较差,而且每个领域的情感词并不一样;传统特征选择的特征具有维度大,而且忽略了语义及词序的缺点。针对以上问题,本论文主要做出了以下贡献。本论文研究了情感词典拓展的方法用于情感词典的拓展,发掘情感新词,解决情感词典覆盖度的问题,其中包括两个方法:基于规则模板进行情感词典的拓展和基于英文情感词典进行拓展。基于规则模板方法主要包括三个阶段:人工采集规则、获取候选情感词以及确定情感极性阶段,主要使用了规则和点互信息进行情感词典的拓展,具有方便快捷的特点;基于英文情感词典的方法根据英文情感词典以及中英文平行语料库的中英文词语对齐信息进行中文情感词典的拓展,能够尽可能多的获取情感新词。本论文还研究了基于词向量的特征选择与表示,用于解决传统方法中的特征维度高、忽略语义及词序信息的问题,主要包括两个方法:基于词向量与情感信息结合的方法和基于句向量的方法。基于词向量与情感信息结合的方法中,将文本中分词后的每个词语的词向量和情感词典中的情感词结合起来同时作为特征,即考虑了语义上下文信息又考虑了情感信息,同时特征维度比较小;基于句向量的特征选择与表示方法,将一个文本整体训练成一个向量用于训练分类器,考虑了语义及词序因素的同时特征维度降低了。最后本文为了验证提出方法的有效性,将提出的情感词典拓展方法和基于词向量的特征与表示方法运用到了情感分析中,得出了三个情感分析框架用于实验。实验采用python环境,使用网络爬虫获取商品评论数据集,使用大型语料库训练词向量和句向量,使用平行语料库获取中英文对齐信息,对数据进行预处理,主要进行了两个实验:传统情感词典方法和使用本文提出的情感词典构建及拓展方法进行情感分析的实验,用于验证情感词典构建及拓展方法的有效性;传统机器学习方法、基于词向量和情感信息结合的方法以及基于句向量的方法的实验对比,用于验证基于词向量特征选择与表示的方法有效性。从实验结果中,进行了分析对比,得出了本文提出的情感词典构建及拓展方法和基于词向量的特征选择与表示方法的有效性。
其他文献
自从上世纪三十年代美国政府利用可行性研究取得巨大成功以来,项目可行性研究在此后的时期内取得了长足的发展,在企业投资和工程项目建设的组织管理工作中起到了重要作用,可
针对以往基于质点速度波形测量使用拉格朗日分析法反推材料动态力学性能时,需作某种简化假定或者必须同时实测应力边界,而在实验过程中的边界应力数据在某些情况下测不到或测不
本文主要阐述了现阶段猪伪狂犬病流行发病特点,较为细致的分析了近年该病的发病原因,对该病的流行发生及控制情况提出一些具体有效的方案,对猪场临床控制该病具有借鉴和指导
不久前,《福布斯》“2002年度中国大陆100首富排行榜”正式揭晓,其中女性富豪有三位,分别是香港富华国际集团董事长陈丽华、阳光文化公司主席杨澜和国腾通讯董事长何然。
通过实验生态学和生物化学的方法,研究了UV-B辐射对杜氏盐藻、小角毛藻的生长、叶绿素含量、可溶性蛋白含量、超氧化物歧化酶活力的影响.结果表明:(1)UV-B辐射对小角毛藻的生长
2006年9月至2009年4月对象山港电厂海域进行了为期3年每年4季共11个航次的浮游动物调查,共鉴定11大类53种浮游动物,浮游动物丰度平均值为367ind·m-3.数据分析表明,象山
7月6日,北京气温再次高达38℃,与滚滚热浪一同扑面的是全国政协十届十次常委会上关于社会公平的讨论。此次常委会开设了4个专题,社会公平专题集聚了130名委员。穿梭于两个小组会场聆听发言,记者感受到委员们居安思危的凝重和踊跃献策的激情。    社会不公成为当前挑战    一般而言,社会公平主要体现在社保、教育和卫生领域。社会不公成为与会委员讨论最热烈的话题之一。  “有人说过,教育是穷人除造反外惟一
以具有三维骨架结构的环氧树脂大孔聚合物为整体型模板,利用硅酸酯原位溶胶-凝胶过程和高温烧结法制备出大尺寸SiO2大孔材料,通过水热法用铝酸钠对材料进行表面改性,得到铝掺杂S
采用柠檬酸辅助的溶胶-凝胶法制备了Fe^3+掺杂Li1.1Fe0.05V2.95O8及对比样品LiV3O8正极材料.使用TG—DTA、XRD、FT-IR等手段表征了正极材料的物理化学特性,并采用EIS、恒电流充放