论文部分内容阅读
[摘 要]文中主要介绍互联网舆情监控分析系统的发展,详细阐述了互联网舆情监控分析领域的背景意义、研究目的、采用的主要技术及其特点,互联网舆情监控分析系统的原理和实现进行了详细解析。
[关键词]舆情监控分析;机器学习;数据清洗;数据可视化
中图分类号:TP499 文献标识码:A 文章编号:1009-914X(2018)12-0309-01
1.引言
根据中国互联网信息中心的数据,截至2018年1月31日,我国有7.7亿的互联网用户,已成为世界上最大的互联网用户团体。互联网已经成为公众舆论的传播平台之一。与传统媒体相比,互联网舆论的表达有一些特殊的功能,例如快速、随机性、匿名性。同时,网络上还存在部分别有用心的网民,利用网络隐蔽、自由的特性,传播各种非法信息与不实言论。这使得网络公共舆论很容易导致突发公共事件,并且会影响社会的稳定。因此,互联网的公众舆论信息的发现与分析系统是十分重要的。
2.基于爬虫和机器学习的互联网舆情监控分析系统
该系统主要模块包括搭建对主流门户网站的爬虫框架、数据清洗以及转存、基于统计以及机器学习的中文智能分词、基于機器学习的情感分析算法、Web后台舆情监控及可视化展示。
(1)搭建对主流门户网站的爬虫框架
该模块主要负责从互联网上采集基础的舆情数据,为后续的舆情监控提供数据基础。通过编写Python爬虫程序按照热点话题或者是用户指定的关键词采集如微博、知乎、网易等社交网站的舆情数据,存入系统数据库中供后续使用。
(2)数据清洗以及转存
该模块是对爬虫爬取的数据进行二次筛选,以获得用户真正关心的数据。
(3)基于统计以及机器学习的中文智能分词
该模块是对爬虫爬去的数据进行分词信息提取。后期可以对用户输入的监视关键词进行匹配和形成词云分析。中文分词的准确与否,直接影响到对关键词搜索结果识别度的问题。
(4)基于机器学习的情感分析算法
该模块采用基于机器学习的情感分析算法。首先通过读取情感词典,获得褒义词表、贬义词表、中性词表,鉴于程度副词和否定词往往表达了情感的强烈程度,通过程度副词表及否定词表进行辅助判定。对目标文本进行逐句拆分,逐句计算它的情感得分,进行得分累加得到文本的情感偏向。通过对大数据的分析可以大致判断舆情的动态,为用户提供监测报警和决策支持。
(5)Web后台舆情监控及可视化展示
为了方便用户随时随地查看舆情信息我们采用web形式来构建我们的系统化。没有了设备限制的困扰,只要可以连接互联网就可以登录系统来查看用户所监测的舆情状况。通过数据的可视化操作,大大减少了用户监测的困扰,效果一目了然。
3.结束语
本文首先从互联网舆情发展情况出发,阐述了互联网舆情监控分析系统设计及实现的重要性和必要性,然后提出一种基于爬虫和机器学习的互联网舆情监控分析系统,能让用户更简洁明了的了解互联网舆情情况。
参考文献
[1]周志华.机器学习[M]:北京:清华大学出版社,2016.
[2]BruceEckel.Java编程思想(第4版)[M].北京:机械工业出版社,2007.
[3][美]刘兵(BingLiu)著,刘康译.情感分析:挖掘观点、情感和情绪[M]:北京:机械工业出版社,2017.
[关键词]舆情监控分析;机器学习;数据清洗;数据可视化
中图分类号:TP499 文献标识码:A 文章编号:1009-914X(2018)12-0309-01
1.引言
根据中国互联网信息中心的数据,截至2018年1月31日,我国有7.7亿的互联网用户,已成为世界上最大的互联网用户团体。互联网已经成为公众舆论的传播平台之一。与传统媒体相比,互联网舆论的表达有一些特殊的功能,例如快速、随机性、匿名性。同时,网络上还存在部分别有用心的网民,利用网络隐蔽、自由的特性,传播各种非法信息与不实言论。这使得网络公共舆论很容易导致突发公共事件,并且会影响社会的稳定。因此,互联网的公众舆论信息的发现与分析系统是十分重要的。
2.基于爬虫和机器学习的互联网舆情监控分析系统
该系统主要模块包括搭建对主流门户网站的爬虫框架、数据清洗以及转存、基于统计以及机器学习的中文智能分词、基于機器学习的情感分析算法、Web后台舆情监控及可视化展示。
(1)搭建对主流门户网站的爬虫框架
该模块主要负责从互联网上采集基础的舆情数据,为后续的舆情监控提供数据基础。通过编写Python爬虫程序按照热点话题或者是用户指定的关键词采集如微博、知乎、网易等社交网站的舆情数据,存入系统数据库中供后续使用。
(2)数据清洗以及转存
该模块是对爬虫爬取的数据进行二次筛选,以获得用户真正关心的数据。
(3)基于统计以及机器学习的中文智能分词
该模块是对爬虫爬去的数据进行分词信息提取。后期可以对用户输入的监视关键词进行匹配和形成词云分析。中文分词的准确与否,直接影响到对关键词搜索结果识别度的问题。
(4)基于机器学习的情感分析算法
该模块采用基于机器学习的情感分析算法。首先通过读取情感词典,获得褒义词表、贬义词表、中性词表,鉴于程度副词和否定词往往表达了情感的强烈程度,通过程度副词表及否定词表进行辅助判定。对目标文本进行逐句拆分,逐句计算它的情感得分,进行得分累加得到文本的情感偏向。通过对大数据的分析可以大致判断舆情的动态,为用户提供监测报警和决策支持。
(5)Web后台舆情监控及可视化展示
为了方便用户随时随地查看舆情信息我们采用web形式来构建我们的系统化。没有了设备限制的困扰,只要可以连接互联网就可以登录系统来查看用户所监测的舆情状况。通过数据的可视化操作,大大减少了用户监测的困扰,效果一目了然。
3.结束语
本文首先从互联网舆情发展情况出发,阐述了互联网舆情监控分析系统设计及实现的重要性和必要性,然后提出一种基于爬虫和机器学习的互联网舆情监控分析系统,能让用户更简洁明了的了解互联网舆情情况。
参考文献
[1]周志华.机器学习[M]:北京:清华大学出版社,2016.
[2]BruceEckel.Java编程思想(第4版)[M].北京:机械工业出版社,2007.
[3][美]刘兵(BingLiu)著,刘康译.情感分析:挖掘观点、情感和情绪[M]:北京:机械工业出版社,2017.