论文部分内容阅读
随着互联网的发展,网络已经成为人们表达观点、发表意见的重要舞台,网络舆情在舆情中占据了重要的地位,对网络舆情的研究也越来越受到学术界和工业界的关注。网络舆情的研究包括各种途径,例如敏感词分析、舆情分类、情感分析等。其中,情感分析是指对给定的文本的感情色彩进行分析、归纳的过程,即判断一句话或者一篇文本中观点持有者对某个事件或商品持有的正向、负向或中立的态度。对网络舆情进行情感分析,能够挖掘出网民对某个社会事件的态度,也可以预测事件的发展态势,还能够提高信息过滤的准确度。从载体上看,网络舆情文本可以分为新闻、博客、论坛和微博文本,不同类型的文本在形式和内容上有其独有的特点。本文针对这些文本在形式和内容上表现出来的不同特点,提出或优化了相应的情感分析算法和解决方案,并最终设计实现了一个面向网络舆情文本的情感分析系统。主要的内容包括:1.研究中文情感词典的构建方法,提出了一种基于翻译的中文情感词典扩充方法。2.研究面向新闻和博客文本的情感分析算法。使用基于支持向量机(SVM)的情感分类算法将新闻和博客文本分为正向、负向和中性三类。3.研究面向论坛文本的情感分析算法。将论坛文本分成两类,主帖和回帖。对于主帖,采用基于支持向量机的情感分类算法;对于回帖,提出了一种基于模糊匹配和情感值加权计算的情感分析算法。4.研究面向微博文本的情感分析算法。采用二次分类的方法,首先提出一种基于加权计算的主客观分类算法,将微博文本分成主客观两类;然后使用基于朴素贝叶斯分类器(NB)的情感分类算法对主观文本进行正负向分类。5.在上述研究的基础上,结合网络爬虫技术、页面内容提取技术和Web技术,设计与实现了一个网络舆情情感分析系统NPOSAS,并对系统进行测试。经测试,系统对新闻文本的分析准确率为71.7%,对博客文本的分析准确率为69.3%,对论坛文本的分析准确率为64.0%,对微博文本的分析准确率为65.1%。