论文部分内容阅读
近年来,随着互联网技术的飞速发展,社交网络已渗透到生活的方方面面,其中包含了海量结构复杂的、应用场景丰富的数据,为传统人类社会现象和规律的研究提供了新的视角和挑战。为了更加有效地分析和利用社交网络数据,从海量网络用户数据中准确提取热门事件并有效地对关键热门事件进行跟踪,面向社交网络的数据挖掘技术应运而生。对社交网络中热门事件进行检测与追踪是网络安全工作的一项重点,是社交网络数据挖掘的研究热点。社交网络中热门事件的检测与追踪技术是传统信息检索技术与互联网技术的结合,通过对社交网络庞大的用户群和大量实时数据进行分析,可以有效地检测出热门事件,并通过对其进行追踪来观察热门事件传播与演化的情况。事件检测、事件传播以及事件演化是社交网络中热门事件检测与追踪技术的关键组成部分,而且事件检测模型、事件传播模型以及事件演化模型的有效性都与社交网络中热门事件检测和追踪技术的整体性能有着至关重要的联系。因此,对社交网络中事件检测、事件传播以及事件演化进行研究具有较大的理论意义和实用价值。本文首先对社交网络的相关理论知识与关键技术进行了深入研究,并根据近年来的研究现状,分析现有研究中存在的一些亟待解决的关键问题。然后,在此基础上借鉴已有的相关研究成果,对社交网络中事件检测、事件传播以及事件演化进行了创新性的研究和探索。具体的研究内容和创新点如下:(1)针对社交网络中现有的事件检测方法的不足,例如:无法过滤低质量微博、低影响力用户、冷门主题;同时缺乏关键微博、影响力传播者的识别能力;以及主题模型先验估计算法的不稳定性导致事件检测准确率低、效率低的问题,研究并设计了基于主题模型的事件检测与影响力传播者识别模型。首先,利用HITS(Hyperlink-Induced Topic Search,简称HITS)算法和主题决策图对在线社交网络数据进行预处理,筛选出高质量的微博、高影响力的用户以及高热门度的主题,以提高事件检测的准确率和效率。其次,根据微博的权威度值以及最小距离自动识别出热门主题中的关键微博,进而根据关键微博的数量自动确定LDA(Latent Dirichlet Allocation,简称LDA)主题模型的先验参数,以进一步提高事件检测的准确率和效率。然后,根据用户的中心性值以及最小距离自动识别出热门主题中的关键用户,同时结合关键用户的活跃度与局部特征识别出热门事件中的影响力传播者。最后,实验结果验证了本文提出的基于主题模型的事件检测与影响力传播者识别模型的准确性、高效性以及影响力传播者识别的有效性。(2)针对社交网络中现有的影响力最大化方法因为忽略了影响力传播者兴趣、主题流行度以及热门主题下合适数量的影响力传播者的识别,而导致事件传播准确率低、效率低、传播范围窄的问题,研究并设计了基于用户兴趣主题模型的高影响力贪心最大化模型。首先,基于LDA模型提出用户兴趣主题模型。该模型对在线社交网络数据进行处理得到其中用户的兴趣主题分布以及主题敏感度。其次,根据用户的主题敏感度对在线社交网络中所有微博和用户进行预处理,得到热门主题下高影响力用户子集,以提高影响力传播者兴趣识别的准确率和效率。接着,对在线社交网络中的短文本微博进行聚类,且通过主题决策图得到合适的聚簇个数,将每个聚簇中的短文本微博整合在一个微博文档中组成一个长文本微博文档,并利用用户兴趣主题模型计算得到每个热门主题下的用户兴趣分布,以进一步提高热门主题下影响力传播者兴趣识别的准确率和效率。然后,根据HITS算法为每个热门主题中的微博和用户分配不同的权重以描述他们的重要度,使每个热门主题可以被多个微博和多个用户所代表,并提出多原型兴趣社区识别模型,从而识别出用户兴趣社区,以提高热门主题下合适数量影响力传播者识别的准确率和效率。进而利用基于用户兴趣主题的高影响力贪心最大化模型,完成热门主题下合适数量影响力传播者的快速挖掘,从而提高热门事件主题下影响力传播者识别的准确率和效率,以提高影响力最大化模型的准确率和效率、扩大影响力传播范围。最后,实验结果验证了本文提出的模型都优于基准模型,能够高效、准确的进行热门事件影响力最大化传播。(3)针对社交网络中现有的事件传播方法中信息传播模型因为缺乏根据用户兴趣流行度进行选择性传播、缺乏影响力传播者的智能识别与更新能力以及不能从上一次传播过程学习到任何经验,而导致连续传播时准确率低、效率低、传播范围窄的问题,研究并设计了基于用户兴趣流行度的个性化事件传播模型。首先,通过HITS算法、用户兴趣主题模型以及主题决策图识别出用户兴趣并对其进行流行度分析,以提高事件传播模型的准确率和效率。其次,在事件传播过程中添加学习过程,利用已有的事件传播信息和用户兴趣信息,通过用户兴趣主题相似度判断模型、权威度计算模型以及事件主题相似度分析模型完成个性化事件传播模型经验集的创建与更新,以提高事件连续传播时的准确率。接着,通过经验集描述事件的传播过程、影响力传播者在该过程中的关键作用以及传播的事件特征,以进一步提高事件传播模型的准确率、效率和影响范围。最后,实验结果验证了基于用户兴趣流行度的个性化事件传播模型的准确性、高效性。(4)针对社交网络中现有的事件演化方法因为缺乏微博影响力、用户影响力及用户兴趣动态变化的追踪识别能力、新旧热门事件识别率低,而导致事件演化控制能力差、难以高效准确的追踪热门事件的演化过程以及影响力传播者兴趣演变的问题,研究并设计了基于用户兴趣演变的事件演化模型。首先,利用热门主题自动聚类算法以及用户兴趣社区发现算法识别出热门主题下的影响力传播者兴趣社区,以提高影响力传播者兴趣识别的准确率和效率。其次,提出了基于用户网络拓扑结构和用户交互网络结构的用户动态影响力计算方法,同时基于LPA(Label Propagation Algorithm,简称LPA)算法来动态追踪用户在社交网络互动中兴趣标签的变化过程,以进一步提高影响力传播者兴趣演变过程识别的准确率和效率。然后,采用基于TF-IDF(Term Frequency–Inverse Document Frequency,简称TF-IDF)算法的关键词智能抽取方法,以高效准确地自动抽取每个主题的热门关键词,且计算每个热门事件主题关键词之间的余弦距离来判断是否为新的事件或者已有事件的演变,以进一步提高事件演化过程中新旧热门事件识别的准确率和效率。最后,实验结果表明,本文提出的模型都优于基准模型,能够高效、准确的识别出热门事件演化过程中的新旧热门事件以及影响力传播者的兴趣演变过程。