论文部分内容阅读
伴随互联网的飞速发展,网络为越来越多的民众表达自己的情绪和意见提供了广阔的平台,网络逐渐发展成为民意的聚集地。在这种现实背景下,负面的、消极的网络舆情可能会欺骗和误导广大民众,对社会的公共安全造成了越来越大的威胁,因此有必要对网络上的话题和言论进行有效地分析,及时捕捉舆情动态,对于维护社会稳定、构建和谐社会具有重要的现实意义。因此,对网络舆情分析技术的研究已成为一项十分紧迫的重要课题。本文重点研究并分析了网络舆情分析系统中的关键技术信息采集、信息预处理、热点发现与跟踪技术:1、信息采集与信息预处理指通过网络爬虫抓取指定范围的网页并通过网页净化、中文分词生成权值向量的过程。2、话题发现技术的任务是实现对某一事件的相关新闻报道聚合到同一个集合中,同时在新的新闻报道来时,发现新的事件,并形成话题。热点发现的本质是一个文本聚类过程,通过对目前现有的几种聚类方法的综合比较,最终,确定在本系统中采用Single-pass的聚类算法。3、话题跟踪技术能够帮助用户获得其感兴趣的话题新闻,并能及时追踪这些话题,因此,话题跟踪的任务就是系统根据少数样本确定一个话题,要求其在以后获取的信息中识别出与此话题相关的报道。话题跟踪的本质是一个文本分类的问题,基于对目前现有的几种文本分类方法的综合比较以及SVM算法的性能改善,确定了在本系统中采用改进的SVM分类器-PCA-GA-SVM模型实现话题跟踪。本文最后介绍了网络舆情分析系统的具体功能实现。在设计了系统的整体框架后,分别对各模块的功能实现进行了具体说明。在本系统中,实现了在Windows操作系统下基于MyEclipse6.0开发环境和Mysql4.1.20数据库管理系统下的网络舆情分析系统的原型构建。该系统实现了对热点话题的检测与追踪,能够为相关部门制定决策提供辅助支持。