论文部分内容阅读
随着互联网的迅猛发展,用户可以自由的在社交网络平台上表达和分享自己的情感和观点。对于社交网络信息进行情感分析,可以挖掘出其背后蕴含的巨大商业和舆论价值。社交网络中微博由于语言格式自由且复杂多变,和传统文本情感分析差别较大,而博客等和传统文本分析相类似,基于此本文所指社交网络主要是微博文本。当前对于社交网络情感分析处于初始和发展阶段,存在大量问题需要解决。因而基于社交网络的情感分析研究具有理论意义和应用价值。社交网络信息的舆情分析系统,通过网络爬虫获取微博上面关于热点主题的微博信息作为舆情信息,通过中文分词,信息抽取,统计分析等处理,最后以图形和表格的形式显示出来,为相关决策提供依据。本文主要提供了一种将情感词典特征提取和贝叶斯分类算法相结合情感分析系统的构建的解决方案。论文主要完成了以下三个方面的工作:1.对国内外情感分析系统的构建方法做了分析,明确了构建社交网络信息的情感分析系统的思路。对于社交网络信息情感分析系统做了详细的需求分析,并给出了系统的主体框架和各个功能模块。本文介绍情感分析系统各个模块的技术原理和具体实现,从理论和实践两个方面来介绍其适用场景,核心技术,主要包括爬虫技术(利用爬虫对微博进行网页采集和DOM树结构化数据的抽取)和自然语言处理技术(主要应用NLPIR)等。2.本文分析对比了 CHI等特征选择算法,根据分类结果准确性提出了基于情感词典的特征选择算法,该算法重点在于构建全面的情感词典,基于SO-PMI算法,根据不同词汇特点分别构造出基础情感词典,表情符号情感词典和网络语情感词典,最后将三个词典整合成最终的情感词典,该词典可用于特征提取和情感分析。将情感词典应用于分词,分词结果则作为情感特征项。将词频,BOOL和TF-IDF三种算法应用到情感权值的计算中。3.对社交网络信息的情感分析系统的具体实现过程做出了阐释,并讲解了各个功能模块的实现细节。由于微博具有短文本的特点,使用朴素贝叶斯算法进行情感分析时,对微博文本按照观点分割与否分为整体观点和分割观点两种情况最终基于上述理论和情感分析方法实现情感分析系统的可视化。