论文部分内容阅读
社交网络平台,例如Twitter、新浪微博等,已经成为了人们日常生活与交流的重要组成部分。每时每刻都有着大量的数据在社交网络上发布与传播,而文本数据在这些数据中占据了大多数。这些文本数据产生的原因可能是某个突发舆论事件在社交网络中大规模传播又或者是某个基于现实的灾害事件的发生。社交网络的文本数据中蕴含着大量的与突发事件有关的信息,这些突发事件信息的传播和扩散会对社交网络的公共舆论产生深远的影响,因此在社交网络中实现突发事件的信息提取并对其传播进行预测在网络监控与安全方面具有重要意义。因为社交网络信息与传统新闻媒体信息的文本特点存在差异,传统的突发事件检测模型和信息传播模型在社交网络中并不适用。因此本论文对现有态势感知算法进行了改进,完成了态势感知算法在社交网络中的应用,实现了突发事件的检测和预测。态势感知算法模型由三个部分组成,分别是态势察觉、态势理解以及态势预测。(1)在态势察觉阶段,首先提出了利用社交网络信息影响力的方式计算突发词权重,并结合了时间窗口、文档频率等算法,实现了对突发特征词的提取。通过实验验证了该算法能够提高突发特征词检测的准确性。(2)在态势理解阶段,本论文通过构建朴素贝叶斯分类器和K-Means、凝聚层次等聚类算法实现了文本分类和文本聚类功能。文本分类器的构建结合了词向量、词频-逆文档频率、Naive Bayes等算法,使其可以发现更为紧急的灾害型突发事件并予以警报。本文通过在文本相似度的计算过程中加入时间信息,在一定程度上改善了文本聚类算法结果的准确性。(3)在态势预测阶段,本文结合传统信息传播模型构建了一个基于用户影响力和事件热度的态势预测传播模型,该模型结合了突发事件的历史信息数据和事件预测模型两部分。突发事件的历史信息通过牛顿插值法进行拟合,事件预测模型沿用了传统传播模型的部分概念,但是模型中事件热度的计算和节点特征的设置都取自于社交网络突发事件和用户本身的属性,事件的传播速率则由节点转换速率体现。实验验证态势预测传播模型能够较好的拟合社交网络突发事件的热度曲线,并对事件的下一步发展做出预测。基于以上算法本文实现了社交网络中突发事件的态势感知的研究与应用。