论文部分内容阅读
互联网的快速普及,使网络成为社会舆论发布和传播的主要渠道之一。同时,由于各类网络服务的使用和发展,舆情信息的载体和内容形式也呈现出多样化的特点,不仅包括传统的电子邮件、门户网站、博客、贴吧、论坛还有新兴产生的微博、微信等,舆情的内容也不仅仅承载于新闻、评论、意见转发等,还包括各种多媒体舆情,表现出极大的不可控性。作为政府机关和相关研究机构了解民情民意的直接平台和政府必须坚守的舆论阵地,如果网络舆论被图谋不轨者引导和控制,则很有可能会危及社会的安全和稳定。然而在大数据时代,互联网产生的各种数据每天以PB规模增加,对舆情信息的挖掘和分析提出了新的挑战,因此,如何高效的从大数据时代的海量数据中挖掘和辨别出舆情信息,有很大的现实意义。本文针对这一问题,通过分析舆情分析系统的整体流程,结合大数据技术,构建了大数据环境下网络舆情分析系统模型,并对系统组成模块的工作流程和实现方式做了详细设计。主要工作及研究成果如下:1.研究了网络舆情分析的关键技术,深入分析了信息采集、信息预处理、文本聚类的各个步骤以及其涉及的关键技术和解决方法,分析了Hadoop的两大核心组成部分,HDFS分布式文件系统和MapReduce分布式并行计算模型的架构和工作流程。2.完成了大数据环境下网络舆情分析系统模型的整体设计,设计模型图,详细分析舆情信息采集、舆情信息预处理、舆情信息分析、舆情报告四个组成模块在大数据环境下的具体功能和实现流程。3.分析了信息采集、信息预处理、文本聚类三个阶段的可并行性,将上述过程进行优化。使用HDFS将文本分块存储在集群的不同节点上,利用MapReduce分布式并行计算模型和TFIDF权重计算方法和K-means聚类方法将处理过程分成map和reduce两个步骤进行分布式并行计算,提高了处理大批量数据的效率。4.利用普通PC机构造Hadoop集群,搭建实验所需的软硬件环境,对各项实验参数进行设置,对设计的基于MapReduce的分布式并行信息采集、文本预处理、特征选择、文本向量化、文本聚类过程进行实验验证,通过与常用处理方式对比,证明优化后系统的可扩展性和高效性。