论文部分内容阅读
随着互联网的高速发展,“以用户为中心,用户参与”的开放式构架理念已深入人心,互联网用户逐渐由被动地接收网络信息向主动创造网络信息转变。门户网站、论坛、微博等网络媒介已经成为人们发布、传播和获取评论信息、表达情感、发表观点的重要平台。同时,互联网也逐渐成为舆情信息传播的重要渠道。网络媒介中的大量评论和观点等主观性文本,蕴藏着重要的经济价值和社会价值,同时也引导着社会舆论的方向。它是民众对网络事件的刺激所产生的情感、认知、态度以及行为倾向性的集合,并通过互联网传播。网络舆情的采集、监控对社会安全部门及时获取用户情感倾向、发掘、跟踪网络热点事件等方面具有重大的研究意义和现实意义。因此,众多研究机构、社会企业甚至政府单位都针对网络舆情进行了大量研究分析,欲对其进行监控、利用。本文主要以南华大学高校网络舆情监控平台为基础,对网络舆情信息采集策略进行研究,并以此设计采集系统。采取以理论研究指导实践的方法进行系统设计,首先研究了网络舆情的结构和特征,对主要的舆情采集空间和来源进行分析,结合当前国内外舆情研究的发展现状,针对当前舆情采集广泛存在的采集效率不高、目标局限性强的问题,提出一种可用户个性化主题设置的基于元搜索引擎的舆情采集策略。通过主题关键字匹配、正则表达式过滤和基于域名限定爬取的策略,保证系统爬取数据的主题相关性,过滤冗余数据,提高系统运行效率。将舆情信息的来源设定为公众集中反映意见、态度和观点、倾向的各大新闻门户网站、博客论坛、网络社区、以及微博等新兴媒介。本文研究旨在设计出一套适应高校的网络舆情监控的舆情信息采集系统,做到实时高效地挖掘出互联网中相对于高校敏感的舆论信息,对获取的数据进行清理和结构化处理,为舆情数据的倾向性分析、热点事件的发现与事件跟踪做准备。实现的主要成果有:(1)对网络舆情结构特征、采集来源进行具体研究,结合国内外舆情采集系统研究的现有技术和模式,根据南华大学网络舆情监控平台的实际需求,进行系统分析、设计;(2)分别实现对不同舆情采集来源的网页进行解析,对网页不同标签重要程度进行分析,提取相关舆情要素;(3)实现用户对舆情主题和舆情采集来源的可配置性,用户可基于主题关键字和域名对舆情信息来源进行爬取URL源设置,实现个性化舆情采集;(4)对网络舆情的爬行策略进行分析,基于元搜索引擎进行数据爬取,采用多线程并行爬取实现实时高效爬取;(5)基于JAVA开源SSH框架实现系统整体架构,将应用分为表现层、控制层、业务逻辑层和数据访问层,降低各层之间的耦合度。实现了系统的开发和测试,为整个监控系统的后续工作做好准备。