论文部分内容阅读
随着互联网信息和科技的演变,迎来了Web2.0时代,微博作为一种新兴的传播载体,迅速崛起,并受到人们的广泛关注。与传统媒体相比,其具有信息量大、信息传播速度快、即时性强等特点,这些特点使其成为了人们交流和传递信息的新平台,也给谣言散播提供了新渠道。面对每天产生过亿条的微博数据量,如何处理微博数据,如何及时有效的识别微博中的关键节点,这都是本文将要面对的挑战。本文分析了微博的基本功能,信息特点以及传播特点等等,在此基础上结合国内外现有的关于中心度和聚类分类的算法,着重于研究了识别微博网络中关键节点的技术,在时间与精确度的平衡处理下,提出了解决方法:(1)对微博的特点进行整理分析,结合中心度算法思想,给出了互动指数和影响指数,并将两种指数结合起来,最终提出了适用于微博的关键指数,用于识别微博网络中的关键人物。(2)面对微博每天产生的海量数据,本文结合了六度分割理论的思想,采用SPLINE算法原理,对规模过大的节点集进行整理,移除与源节点最短路径大于5的节点,经过此步,得到了若干联系紧密的节点集。(3)针对紧密联系的节点集,本文分析了层次聚类算法,采用基于模块度凝聚数据的CNM算法,对微博数据集进行聚类,将相似度较高的微博聚集在一起,划分数据集,形成若干更加重要的节点集。(4)针对第三步所得重要节点集,提取出影响力节点的用户信息,对其使用关键节点的算法,有效识别出微博网络中的关键节点。最后,验证提出的方法,本文使用了该方法进行算法编程,对NLPIR微博内容语料库进行微博网络关键节点的识别,针对实验结果,本文对其进行分析,表明本文的方法是可行的和实用的。