论文部分内容阅读
舆情反映了公众对于事件的看法,表达了公众的诉求。及时掌握舆论情况,对社会舆论进行正确积极的引导,具有十分重要的意义。随着互联网的发展,网络已经成为群众获取信息,发表意见的重要途径。胡锦涛总书记指出:“互联网已成为思想文化信息的集散地和社会舆论的放大器。”网络舆情具有以下特点:网络舆情覆盖面广泛,具有很高的突发性,舆情往往带有明显的倾向性和煽动性,舆情信息本身的真实性先天不足。正因为网络舆情的上述特点,对网络舆情进行分析与监控,及时做出正确的舆论引导,有着十分重要的现实意义。舆情信息往往都带有明显的倾向性,正确的识别舆论对话题的整体倾向,可以为舆情的了解与引导,提供很有价值的参考。文本对倾向性分析进行了研究,并提出了一种基于词激活力的话题倾向性识别算法,经过实验该方法取得了很好的效果,并将其应用到了网络舆情分析系统中。本文的主要工作如下:第一,面向海量网络数据,设计舆情分析系统的处理流程、存储方式和总体架构。针对海量数据快速处理的需求,设计了系统的总体框架,多服务器处理的负载均衡机制,数据同步机制和数据库存储方案。第二,详细论述了海量网络数据舆情分析系统各个模块的设计实现。包括数据采集端网页去重设计,分词模块,聚类模块,热点词模块,敏感词模块,分类器训练模块,倾向性模块,数据库表设计,对相关模块数据库接口进行了详细的说明。针对海量数据的处理与存储,重点介绍了Oracle数据批量更新及MongoDB数据库分表存储解决方案。第三,通过研究传统的文本倾向性分析方法的不足,提出更为有效的基于词激活力的话题倾向性识别算法。传统方法往往不能有效反映话题文档集的整体倾向,基于激活力的方法可以有效发现文档集的倾向性特征,更好的识别文档集的整体倾向。将该方法与基于情感词加权的方法进行了实验对比,充分验证了该方法的有效性。