论文部分内容阅读
随着互联网技术的高速发展和人们生活水平的提高,越来越多的人参与到社交网络中,人们乐于在WeChat、Twitter、Facebook等社交网络中分享自己在工作、学习以及日常生活中的相关信息,既可以发表对新闻时事、社会见闻的看法,又可以表达对生活琐事、消费购物的情感,由此产生了海量的社交网络数据,这些社交网络数据很大程度上反映了用户的兴趣、爱好、对事物的看法和感情倾向等等。高效地挖掘和分析这些社交网络数据在舆情监控、事件预测、市场调研、产品推荐等方面有着重要应用。由于社交网络数据具有重要的应用价值,越来越多的人开始设计和开发系统进行相关研究。但是目前社交网络数据分析系统主要集中在单一数据来源,忽视社交网络数据的多样性,并且很多系统都是针对数据的某一角度进行分析,分析不够全面。因此开发一个数据分析较为全面,又可以实现对多源异构数据进行挖掘和分析的社交网络大数据分析系统具有重要意义。本文主要介绍了社交网络大数据分析系统的设计与实现。系统主要分为四大功能模块。第一模块是数据的采集与融合,该模块采用开源网络爬虫框架WebCollector实现对Facebook、Twitter网站数据的爬取,然后对得到的数据进行解析和预处理,将经过处理的不同社交网络的数据统一表示,存储在非关系型数据库Neo4j中。第二模块是信息检索,该模块使用Lucene实现全文索引的快速构建以及提供多样化的检索接口,主要有关键词检索、人物检索、时间检索、来源检索及其组合检索等。第三模块是数据分析,该模块利用TF-IDF权重计算方法、K-Means聚类算法、CNN文本分类算法等算法实现对数据的挖掘分析,主要实现的功能有内容分析、行为分析、用户画像、热点话题发现等。第四模块是数据可视化,该模块是通过表格、柱状图、折线图、地图等可视化形式,实现对数据检索和分析结果的可视化展示,帮助用户更高效地提取有价值的数据信息。本系统基于Java语言进行开发,采用B/S架构,使用MVC设计模式,系统采用前后端分离的开发方式,方便以后对系统进行维护和升级。系统前端采用HTML5、Echarts、BootStrap等技术直观展示社交网络数据检索、分析后的结果。系统后端采用目前较为流行的SpringBoot框架,数据库采用非关系型数据库Neo4j,并综合利用Lucene、TF-IDF、K-Means、CNN等技术实现对数据的检索和分析。