中文微博情感分析关键技术研究

被引量 : 0次 | 上传用户:acmevb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博(Micro Blog)自引入国内以来,快速成长为核心社交平台,用户通过微博表达和分享自己的情感与观点。研究微博情感分析,有利于政府的民意调查、舆情监测和管理,商业满意度调研等应用,另外微博与传统文本差异性比较大,对自然语言处理技术提出更高的挑战。目前国内中文微博的情感分析研究尚处于起步阶段,还有大量的问题需要深入讨论研究。因此,研究微博的情感分析具有较高的学术理论价值和实际应用价值。这篇论文对所研究的中文微博情感分析的关键技术进行介绍,主要包括中文微博情感词典构建、微博情感分析特征产生与选择、微博情感分类器等关键技术。在微博情感词典的构建方法研究方面,主要包括微博基础情感词典、微博表情符号情感词典和微博网络用语情感词典。根据三类情感词典的不同特点,提出相应的构建方法,并将其运用到微博情感分析。实验表明,利用情感权值的和作为分类依据(SO-A),对微博语料的分类微平均(micro-average)可达到78.61%;而利用情感词的极性作为分类依据(SO-P),分类微平均为70.76%。在混合语料环境中,(SO-A)分类微平均(micro-average)为79.88%,(SO-P)分类微平均为71.75%。说明本文构建的情感词典,在情感词的选择、情感极性的判断和权值的计算都是有效的,情感词典的质量比较高,可直接应用于微博以及其他类型的语料情感分析,并且具有分类效果好、过程简单和性能稳定的优势。在微博情感的特征产生与选择以及分类器研究方面,主要介绍基于朴素贝叶斯微博情感分析情况,针对微博短文本的特点,将微博视为单一观点和观点分割两种情况进行分析;研究了CHI统计方法、情感词典和句法路径结合情感词典3种方法;选用词频、BOOL值、TF-IDF三种方法进行权值计算。分类结果发现,在单一观点情况下,获得最高的微平均75.69%;在观点分割情况下,分类最高微平均78.63%,表明了观点分割可取得较好的微博情感分类效果。在利用朴素贝叶斯进行微博情感分析时,采用BOOL权值和结合句法路径与情感词典的二次提取可取得较好的效果,因此总结出最优的预处理方式是“观点分割+二次提取+BOOL权值”,可达到微平均78.63%;另外,在混合语料(微博语料与产品评论混合)环境下,探讨了海量网络文本(微博与评论)的情感分析。实验发现,利用情感词典的分类性能(微平均79.88%)比朴素贝叶斯(微平均67.8%)好,并且具有简单、快速和稳定的优势。
其他文献
<正>从金融危机中得到的一个关键教训就是,很多银行缺乏对单一交易对手风险敞口的持续测算、准确评估和有效监控。①全球银行业的实践表明,单个银行集中度风险在系统内的传染
<正> 一、中国古都多违周礼《周礼·考工记》“匠人营国”之制说: “匠人营国,方九里,旁三门,国中九经九纬,经涂九轨,左祖右社,面朝后市。”秦以前,究竟有哪些都城是按周礼经
随着世界经济重心向服务业的倾斜,全球产业发展呈现出了崭新的迹象,即国际产业重心开始逐步从制造业向服务业转移。服务业在国民经济中地位的不断上升和发展促进和带动了服务贸
目的观察血液灌流联合血液透析治疗尿毒症的临床疗效。方法选择的研究对象为仪征市人民医院肾内科收治的20例尿毒症皮肤瘙痒、并引发睡眠不良者,在维持性血液透析基础上予血
当下饱受争议也备受关注的文学创作现象中,长篇小说的类型化写作越来越成为文学研究、文学批评与文学阅读、文学出版的角力场,其间文学阅读的两极化趋向不可避免构成了文学接
天然橡胶作为一种战略性的物资,已面临全方位激烈的国际市场竞争。海南作为全国最大的天然橡胶生产基地,面对这种局势,天然橡胶在海南农业发展中是否还能处于优势特色产业的
作为我国社会主义民主的两种重要形式之一的协商民主,体现在不同领域、不同层面,具有多种表现形式。其中,人民政协的协商民主是其主要的载体和实践形式,是中国特色社会主义民主政
<正>生态课堂是以学生为主体,以强调每一个学生的需求、欲望和意识,兼顾学生的个性发展,通过现代课堂教学手段,实现教学与学生发展真正统一的课堂。在教学中,为改变以往学生
论文以现代食品安全为宗旨,以离子色谱为主要分析手段,系统的研究了食品中甲醛次硫酸氢钠(俗称吊白块)、氢氰酸、甜蜜素的检测方法,并对离子色谱柱、流动相等分离条件进行了优化
水资源是经济社会发展的基础性资源,它与石油资源、粮食资源一起并称为三大战略资源。随着中国经济、社会的快速发展,需水量迅速增加,水资源供需矛盾已经成为我国经济增长与环境