论文部分内容阅读
现实新闻内容生产环境中存在很多瓶颈,制约着新闻内容的生产。比如:短期热点无法捕捉、编辑人力有限、相关素材难以搜集、对已发表的报道缺乏合理的反馈机制。媒体需要一个能为他们及时发现热点,提供素材支持,追踪热点的工具。互联网已成为思想文化信息的集散地和社会舆论的放大器,这就使得舆情监控对企业、组织、机构而言非常重要。热点舆情发现与分析系统使用Hadoop计算平台分析大数据。Hadoop计算平台主要进行热点挖据和舆情分析。热点挖掘通过对一段时间内新闻数据进行挖掘,发现热点话题。舆情分析,对已挖掘的热点话题,将评论数据和社交数据与热点进行关联,通过情感分析、观点计算和用户画像进行舆情分析。所有数据使用Hadoop存储平台进行存储,对新闻数据建立索引,使用检索系统提供素材检索服务。最终,整个以网页形式程序呈现,为媒体写作提供热点发现与线索管理功能,为企业、组织、机构提供舆情分析和报警功能。系统通过下载平台从外网进行新闻与评论数据和新浪微博数据采集,通过内网内部推送流程进行社交和搜索数据采集。然后,系统对新闻数据和评论数据进行预处理,预处理主要包含地域分类、领域分类、低质量过滤、情感分析、站点识别和权威媒体认证。之后,一份数据将存储到Hadoop集群中被热点挖据流程使用,另一份将建立索引存储,索引数据可以被用作舆情分析也可以进行素材检索。之后,使用算法组件进行热点挖据和舆情分析,得到热点话题和舆情相关数据。算法组件主要包含热点挖据、热词发现、情感分析、观点计算和用户画像。前后台使用Hadoop文件和MySQL数据库,进行数据交互。最终,利用网页形式,根据不同的业务需求呈现数据。热点舆情发现与分析系统1.0版本已经完成人民日报的验收并获得肯定。当然,系统还有需要完善的地方。