论文部分内容阅读
随着互联网的快速发展,网络已经成为民众表达民意、讨论时事的重要公共平台,伴随而生的网络舆情在社会生活中扮演着越来越重要的作用。加强网络管理,开展网络舆情研究无论对于个人、企业、政府都有着巨大的意义。本文在对现阶段国内外的网络舆情理论和网络舆情信息系统建设现状研究的基础上,发现目前的舆情分析系统主要是采用通用网络爬虫技术进行网页信息的爬取,采用基于关键词的简单检索技术对文本数据进行分类。这难以适应日益增长的网络信息和满足用户更高层次的需求。 本文提出将数据挖掘技术与网络舆情相结合的观点。在对网络舆情分析相关技术、数据挖掘技术进行介绍的基础上,本文详细介绍了网络舆情系统的建立流程、网络舆情与数据挖掘结合的方法,PageRank算法、HTTS算法的优点和不足、K近邻算法的原理。在此基础上,本文完成了在网络信息的获取过程中采用模拟退火算法进行优化并通过实验进行验证,并且采用消除WEB噪音的方法进一步提升了网络信息的爬取效率。最后本文以为XX市开发的网络舆情监控分析系统为例,详细介绍数据挖掘技术在网络舆情信息系统中应用所可以采取的模型架构、逻辑流程等。