社交网络中热门事件检测与追踪技术研究

来源 :江苏大学 | 被引量 : 1次 | 上传用户:icnew
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网技术的飞速发展,社交网络已渗透到生活的方方面面,其中包含了海量结构复杂的、应用场景丰富的数据,为传统人类社会现象和规律的研究提供了新的视角和挑战。为了更加有效地分析和利用社交网络数据,从海量网络用户数据中准确提取热门事件并有效地对关键热门事件进行跟踪,面向社交网络的数据挖掘技术应运而生。对社交网络中热门事件进行检测与追踪是网络安全工作的一项重点,是社交网络数据挖掘的研究热点。社交网络中热门事件的检测与追踪技术是传统信息检索技术与互联网技术的结合,通过对社交网络庞大的用户群和大量实时数据进行分析,可以有效地检测出热门事件,并通过对其进行追踪来观察热门事件传播与演化的情况。事件检测、事件传播以及事件演化是社交网络中热门事件检测与追踪技术的关键组成部分,而且事件检测模型、事件传播模型以及事件演化模型的有效性都与社交网络中热门事件检测和追踪技术的整体性能有着至关重要的联系。因此,对社交网络中事件检测、事件传播以及事件演化进行研究具有较大的理论意义和实用价值。本文首先对社交网络的相关理论知识与关键技术进行了深入研究,并根据近年来的研究现状,分析现有研究中存在的一些亟待解决的关键问题。然后,在此基础上借鉴已有的相关研究成果,对社交网络中事件检测、事件传播以及事件演化进行了创新性的研究和探索。具体的研究内容和创新点如下:(1)针对社交网络中现有的事件检测方法的不足,例如:无法过滤低质量微博、低影响力用户、冷门主题;同时缺乏关键微博、影响力传播者的识别能力;以及主题模型先验估计算法的不稳定性导致事件检测准确率低、效率低的问题,研究并设计了基于主题模型的事件检测与影响力传播者识别模型。首先,利用HITS(Hyperlink-Induced Topic Search,简称HITS)算法和主题决策图对在线社交网络数据进行预处理,筛选出高质量的微博、高影响力的用户以及高热门度的主题,以提高事件检测的准确率和效率。其次,根据微博的权威度值以及最小距离自动识别出热门主题中的关键微博,进而根据关键微博的数量自动确定LDA(Latent Dirichlet Allocation,简称LDA)主题模型的先验参数,以进一步提高事件检测的准确率和效率。然后,根据用户的中心性值以及最小距离自动识别出热门主题中的关键用户,同时结合关键用户的活跃度与局部特征识别出热门事件中的影响力传播者。最后,实验结果验证了本文提出的基于主题模型的事件检测与影响力传播者识别模型的准确性、高效性以及影响力传播者识别的有效性。(2)针对社交网络中现有的影响力最大化方法因为忽略了影响力传播者兴趣、主题流行度以及热门主题下合适数量的影响力传播者的识别,而导致事件传播准确率低、效率低、传播范围窄的问题,研究并设计了基于用户兴趣主题模型的高影响力贪心最大化模型。首先,基于LDA模型提出用户兴趣主题模型。该模型对在线社交网络数据进行处理得到其中用户的兴趣主题分布以及主题敏感度。其次,根据用户的主题敏感度对在线社交网络中所有微博和用户进行预处理,得到热门主题下高影响力用户子集,以提高影响力传播者兴趣识别的准确率和效率。接着,对在线社交网络中的短文本微博进行聚类,且通过主题决策图得到合适的聚簇个数,将每个聚簇中的短文本微博整合在一个微博文档中组成一个长文本微博文档,并利用用户兴趣主题模型计算得到每个热门主题下的用户兴趣分布,以进一步提高热门主题下影响力传播者兴趣识别的准确率和效率。然后,根据HITS算法为每个热门主题中的微博和用户分配不同的权重以描述他们的重要度,使每个热门主题可以被多个微博和多个用户所代表,并提出多原型兴趣社区识别模型,从而识别出用户兴趣社区,以提高热门主题下合适数量影响力传播者识别的准确率和效率。进而利用基于用户兴趣主题的高影响力贪心最大化模型,完成热门主题下合适数量影响力传播者的快速挖掘,从而提高热门事件主题下影响力传播者识别的准确率和效率,以提高影响力最大化模型的准确率和效率、扩大影响力传播范围。最后,实验结果验证了本文提出的模型都优于基准模型,能够高效、准确的进行热门事件影响力最大化传播。(3)针对社交网络中现有的事件传播方法中信息传播模型因为缺乏根据用户兴趣流行度进行选择性传播、缺乏影响力传播者的智能识别与更新能力以及不能从上一次传播过程学习到任何经验,而导致连续传播时准确率低、效率低、传播范围窄的问题,研究并设计了基于用户兴趣流行度的个性化事件传播模型。首先,通过HITS算法、用户兴趣主题模型以及主题决策图识别出用户兴趣并对其进行流行度分析,以提高事件传播模型的准确率和效率。其次,在事件传播过程中添加学习过程,利用已有的事件传播信息和用户兴趣信息,通过用户兴趣主题相似度判断模型、权威度计算模型以及事件主题相似度分析模型完成个性化事件传播模型经验集的创建与更新,以提高事件连续传播时的准确率。接着,通过经验集描述事件的传播过程、影响力传播者在该过程中的关键作用以及传播的事件特征,以进一步提高事件传播模型的准确率、效率和影响范围。最后,实验结果验证了基于用户兴趣流行度的个性化事件传播模型的准确性、高效性。(4)针对社交网络中现有的事件演化方法因为缺乏微博影响力、用户影响力及用户兴趣动态变化的追踪识别能力、新旧热门事件识别率低,而导致事件演化控制能力差、难以高效准确的追踪热门事件的演化过程以及影响力传播者兴趣演变的问题,研究并设计了基于用户兴趣演变的事件演化模型。首先,利用热门主题自动聚类算法以及用户兴趣社区发现算法识别出热门主题下的影响力传播者兴趣社区,以提高影响力传播者兴趣识别的准确率和效率。其次,提出了基于用户网络拓扑结构和用户交互网络结构的用户动态影响力计算方法,同时基于LPA(Label Propagation Algorithm,简称LPA)算法来动态追踪用户在社交网络互动中兴趣标签的变化过程,以进一步提高影响力传播者兴趣演变过程识别的准确率和效率。然后,采用基于TF-IDF(Term Frequency–Inverse Document Frequency,简称TF-IDF)算法的关键词智能抽取方法,以高效准确地自动抽取每个主题的热门关键词,且计算每个热门事件主题关键词之间的余弦距离来判断是否为新的事件或者已有事件的演变,以进一步提高事件演化过程中新旧热门事件识别的准确率和效率。最后,实验结果表明,本文提出的模型都优于基准模型,能够高效、准确的识别出热门事件演化过程中的新旧热门事件以及影响力传播者的兴趣演变过程。
其他文献
近年来,降质图像复原一直是数字图像处理领域的重点研究对象,其中多因素复合下的降质图像复原问题更是这一领域的研究热点和难点。本文首先针对单因素降质图像复原问题提出了
在对门窗幕墙进行设计计算时,需要用到各种型号的型材或钢衬截面的几何性质,复杂截面的几何性质计算费工费时,且容易出错。利用AutoCAD软件面域特征的查询功能,可以轻松地求得截面的几何性质,方便快捷、准确可靠。
前瞻记忆是指记着执行已经计划好的事件或活动的记忆。根据线索性质的不同,前瞻记忆可以分为事件性前瞻记忆和时间性前瞻记忆。事件性前瞻记忆需要在遇到外界特定线索时执行(
图像盲复原,即在点扩散函数未知的情况下,从已知的质量退化的图像中恢复潜在的清晰图像,属于图像去模糊的一个重要研究方向。目前,传统的图像盲复原算法需要进行复杂的迭代计算过程,且恢复图像质量较低。为了提高图像盲复原方法的性能,该文应用多尺度卷积神经网络来对该问题展开研究,具体研究内容如下:首先,该文从扩大感受野的角度出发,提出基于扩张卷积的多尺度图像去模糊方法。该方法设计了带有不同扩张因子的小卷积模块
超分子化学是研究分子尺度之上、通过非共价或可逆共价相互作用形成分子组装体的科学,生命体系中的DNA、蛋白质等都是高度复杂、功能化的组装体。揭示组装基元间相互作用本质
锅炉作为应用燃料燃烧所释放的热能或其他热能,依据生产规定与要求,生产所需蒸汽或其他工质的热能动力装置,在日常生产与生活中具有广泛的应用性。而随着锅炉应用规模与数量
图像盲去运动模糊算法即是在模糊核未知的情况下对图像进行去模糊处理。传统的去模糊算法一般都是通过对模糊核进行预测而后与模糊图像进行反卷积最终得到清晰图像,但是这种
随着智能制造的发展,机器视觉技术越来越成为研究的热点,特别是双目立体视觉技术。现阶段我国自动化生产制造、搬运等过程多采用人工控制或者机器人示教模式完成,灵活性较差
针对河蟹大眼幼体放养成活率低的问题,我们作了大量的养殖实验。经过近几年的实践和研究,河蟹苗质量和成活率均有较大幅度提高。现将河蟹的早期健康育苗技术报告如下:
<正>原发性肝癌是常见的恶性肿瘤之一,由于我国约有9800万乙肝携带者,其每年肝癌的发病人数约40. 2万,病死人数约37. 2万,分别占全世界总数的53. 68%和53. 34%,成为肝癌大国[