论文部分内容阅读
在互联网高速发展的中国,大多数网络用户开始逐渐使用新浪微博、QQ、微信朋友圈等社交网络平台进行交流,社交网络改变了人们以往的交往方式。社交网络中每时每刻都在产生大量的数据,仅仅是新浪微博每天就会产生超过一点五亿条数据。在这样海量数据的背景下,单机的处理能力无法满足对信息处理效率的要求,大数据技术因此顺势而生,传统的数据挖掘算法也需要进行改进并且并行化。本文对基于Hadoop的社交网络大数据进行了研究,首先通过爬虫对微博数据进行爬取,然后在分析微博用户的转发行为基础之上提出了相应的算法,对用户转发行为进行预测;同时采用改进后的K-means算法对数据进行聚类,从而实现热点话题的及时发现。本文通过实验的方式论证了算法的有效性。文章的主要研究内容包括以下几个方面:(1)设计了性能良好的微博数据爬取平台,重点分析微博登录验证与反爬虫系统,通过一系列巧妙的设计,采用多线程和优先队列的方式对用户信息及微博正文数据进行爬取,分析出需爬取的主要内容包括用户信息、用户关系信息、微博正文信息、微博转发信息,利用MySQL数据库结构化的方式对数据进行存储。(2)对微博上用户转发行为预测算法进行了设计与实现,为避免现有K近邻算法在大数据背景下效率低、时间成本高的问题,结合压缩近邻算法进行改进并提出了基于决策边界的压缩K近邻算法(CKNN)。并重点分析了改进后的算法在大数据平台上的设计与实现。同时将K近邻算法(KNN)、压缩近邻算法(CNN)作为对照算法在数据集上进行训练,验证了该算法的性能。(3)设计与实现了微博热点话题发现算法,重点分析了现有K-means算法的不足之处,利用粒子群优化算法对传统的K-means算法进行改进并提出了K-means-PSO算法,避免其受到初始聚类中心的影响,减少出现局部最优的情况,随后分析了改进后的算法在大数据平台上的设计与实现。将DBSCAN密度算法、K-means算法作为对照算法在数据集上进行训练,验证了该算法的性能。(4)对基于Hadoop平台的算法效果进行分析,并且通过数据表明大数据平台能够有效提升算法执行速度。本文提出的基于大数据的微博转发预测算法和热点话题发现算法,在理论上,对微博用户行为和网络舆情进行研究具有参考价值;在实践上,对用户行为预测算法和社交网络数据挖掘进行实现具有探索意义。