论文部分内容阅读
随着互联网的飞速发展,互联网的普及率越来越高,人们越来越愿意通过网络表达自己对一些社会热点、突发事件的个人观点。如今的网络舆情颠覆了传统的模式,开始以一种势不可挡的趋势进入到社会层面,对社会造成十分深远的影响。微博集结了互动功能强大、实时性突出、便捷的手机支持以及名人效应等诸多优点,已经逐步取代博客、贴吧等其他老牌的舆情传播平台,对网络舆情的发展起到了推波助澜的作用,它也成为现如今最重要的网络舆情传播平台。微博的关注功能可以将用户们关联到一起,使得信息的传播速度得到历史性的变革,这也使得利用微博信息进行研究从而掌握舆论发展方向成为可能,更可以为政府、企业提供科学的分析结果,提高它们的决策能力,具有极高的社会价值和商业价值。本系统主要分为舆情采集模块、舆情信息预处理模块、舆情信息分析模块、舆情信息服务模块和系统管理模块等五大模块。选择新浪微博作为舆情分析系统的数据来源,利用Java的定时任务对新浪微博的内容进行定时抓取,将获得的页面内容按照新浪微博页面的结构特点进行分解,存入数据库,再利用文本聚类、向量化等分类手段进行分析,最后通过倾向性分析给出结果,并在舆情分析的基础上以图表的形式将舆情在一段时间的走势呈现给用户。在软件层面上,本系统选择SpringMVC、Spring、Hibernate等开源技术作为整体架构,降低各模块之间的耦合程度,提高程序的可扩展性。在采集和页面解析模块中还分别使用到MySQL、HtmlParser、ICTCLAS中文分词系统等开源技术。在系统开发过程中,我们对系统进行了单元测试、功能性测试、性能测试以及安全测试。在测试过程中我们选择“捉妖记”作为关键词进行数据采集,最终获得2015年7月9日至2015年7月21日之间“捉妖记”相关微博432361条,通过对这些数据的去重、去噪、语义分析、文本聚类、词性分类等一系列操作,最终获得了13天当中关于“捉妖记”话题的舆情走势,以电影上映日期7月16日作为分水岭,上映之前“捉妖记”相关的正面微博占比在45%上下浮动,上映之后正面的微博占比提高到了90%以上。在实际应用中,片方可以根据舆情在不同时期的特点,采取不同的宣传策略,以获得利益的最大化。