网络舆情分析系统研究与设计

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:ccxdnk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的飞速发展,互联网成为了网民发表观点、表达思想的主要途径。信息在互联网上传播具有高速、广泛、隐蔽性等特点,导致大规模的网络舆情很容易形成。网络舆情指的是网民在各大论坛、微博等网络平台上,对重点社会事件、政府政策措施以及热点新闻等,所表达意见和态度的总和。政府机构、企业通过对网络舆情的分析,能实时掌控舆情发展态势,及时果断地采取相关措施,避免舆情危机带来的危害,从而保证社会与企业稳定、和谐、健康发展。本文针对传统舆情数据采集效率和性能上的不足,设计出一种高效稳定的分布式网络爬虫舆情数据采集架构。研究网络舆情分析中文本聚类和分类两个核心技术,对不足之处进行改进并应用于本文系统中。本文的主要工作有:1、分布式网络爬虫架构。分析Hadoop分布式云平台和Nutch分布式爬虫技术,设计出将Nutch集成在Hadoop集群中获取舆情数据的分布式爬虫架构,保证系统对舆情数据采集的高效率和准确性。2、文本聚类方法。研究文本聚类算法,比较各种聚类算法的优缺点,选取适合网络舆情话题发现的BIRCH算法进行研究,通过实验探究和优化阈值T的选取,保证文本聚类算法的准确性,并作为舆情话题发现的方法。3、文本分类方法。研究文本分类算法,比较各种分类算法的优缺点,选取SVM算法作为基础算法,针对其只比较适合二值分类的弊端,在分类训练时加入二叉树模型,减少和优化分类器的选取,提高了分类的准确率和效率,通过实验进行了验证,并作为舆情话题跟踪的方法。4、系统设计与实现。在相关技术研究的基础上,设计系统的MVC框架模式、逻辑架构、软件系统架构、系统的各个功能模块UML类图和相关流程图,完成整个系统的部署实现。
其他文献
移动IP协议是基于网络层提供移动支持功能的全方位移动解决方案,具有可扩展性、可靠性和安全性,并使结点在切换链路时仍可保持正在进行的通信。它是移动通信与Internet技术的融
近几年来对P2P的研究迅速升温,各方面的应用层出不穷,特别是它提供无穷的存储空间以及不受限制的传输容量,这是传统中央服务器所无可企及的。P2P网络中的节点既是服务使用者,也是
图像边缘提取技术是图像处理领域最基本的技术,如何准确、快速地提取图像中目标物体的边缘信息一直是图像处理领域研究的热点问题。随着边缘提取技术研究的深入,边缘提取已经成
近年来,随着计算机技术及网络通信技术的发展,在家庭中实现生活的现代化、安全化,提高居住环境等要求,使家庭设备智能化成为未来生活发展的趋势。本文提出以嵌入式计算机为主
随着计算机网络和多媒体技术的发展,Internet正成为许多实时多媒体应用的重要载体,如音/视频会议、网络直播、网络游戏等。这些高带宽低时延需求的应用对多播通信的服务质量提
随着计算机技术迅速的发展,传统产业通过信息化升级提高企业竞争力已成为一种趋势。挖掘机作为我国的一种传统产业,近两年发展比较迅速,但技术力量落后、技术人员缺少等问题也逐
网格计算技术的出现旨在寻求有效的资源共享途径。网格把整个互联网合成一台巨大的超级计算机,实现计算资源,存储资源,数据资源,信息资源,知识资源,专家资源等的全面共享。网格的概
随着通信技术的迅猛发展,通信网络正向更加开放、更加灵活的下一代网络(NGN,Next Generation Network)演进。下一代网络是一种融合网络,正在向以软交换和IP技术为基础的全IP
合法侦听用于国家安全部门实时监控被控用户的通信活动,对数据的准确性、实时性要求很高。数据库性能好坏及数据的安全性将直接影响安全部门获取被控用户数据的准确性和实时性
最近几年,可变体的建模与模拟成为计算机图形界的新热点。从目前的研究现状来看,现有方法在检测的精度与检测的实时性上各有侧重。本课题来源于大连市公安局刑侦场景重建的项目