论文部分内容阅读
我国互联网产业近十几年来发展极为迅猛,由于其具有传播速度快、受众基数大、内容覆盖广泛、社会动员能力强等优势,互联网开辟了新的社会舆论聚集地。但有些不法分子借助这种途径向广大人民群众传播虚假信息,散布反动性言论,并已造成恶劣影响。诸如此类问题都是在信息传播方式从传统媒体向新媒体转变过程中衍生出来的。因此加大对网络舆论的监管,增强政府对社会舆论正确导向的把控能力,对我国在新形势下的健康发展有着至关重要的作用。本文主要介绍互联网舆情监测分析系统的设计与实现过程。用户可通过本系统获取某自定义敏感事件的多维度舆情分析结果,如情感极性占比、事件随时间的发展趋势等,还可以对事件进行预警、生成报告等操作。要对舆论做到尽可能全面的监控,大规模数据的采集必不可少。本系统的数据来源包括新闻网站、移动新闻客户端、论坛等互联网媒体中的公开文本信息,数据采集模块在采用Heritrix爬虫框架的基础上进行扩展开发。爬虫模块具备近千个国内外站点信息的采集能力,并可形成标准格式化文件供数据分析程序使用。海量详情数据存储采用HBase非关系型数据库。高性能系统需要在尽可能短的时间内,准确返回用户想要的数据信息,这些都要依靠一个高效的搜索引擎。本文还将介绍搜索引擎Solr在系统文本搜索、海量数据统计中的应用。Solr是一个高效的数据检索工具,在整个互联网舆情监测分析系统中将承担十分重要的工作。论文在研究国内外数据采集和搜索引擎相关成果的基础上,借鉴成熟文本情感分析产品的特性,运用现代软件工程管理的基本思想,提炼各类用户故事后,形成了核心业务处理模型以及可推广的同类产品通用解决方案。本系统已成功上线进行商业运作,为各级政府部门提供了便捷高效的互联网舆情监控工具,打击了扰乱社会稳定的网络犯罪,推动了正能量信息的传播,为净化网络环境、抑制不良事件的发生做出了积极贡献。