论文部分内容阅读
随着互联网的迅猛发展,网络在人们的生活中扮演着越来越重的地位,其用户数量也越来越多,如何从繁杂的网络信息中获取用户感兴趣的信息,成为数据挖掘领域的一大难题。研究发现,当前突发话题检测技术无法发现由新词组成的突发话题,导致突发检测不准确;当前话题跟踪技术不适合由短文本组成的微博网络;当前话题传播与预测尚处于初级阶段,基于微博话题无法准确的预测下个时间段的传播规模。基于以上发现,本文在已有研究的基础上,重点分析基于微博的突发话题检测、跟踪与传播预测技术。提出三个问题的解决方案如下:鉴于微博网络的用语灵活性,提出基于特征字的突发话题检测与跟踪算法,旨在快速的检测微博中由新词组成的突发话题。提出基于微博消息权重的特征字权重计算方法,提高特征字权重的准确度;定义“微博数窗口”,代替当前的“时间窗口”,提高检测系统的效率和检测大规模突发的速度;提出基于相似度和文档重叠度相结合的关联度计算算法,既保证了关联度计算的准确率,同时加快了计算速度;提出一种由突发检测算法演化来的话题跟踪算法,解决微博中漂移话题的跟踪问题。通过对病毒传染模型、消息传播模型以及话题传播模型进行深入的研究,提出一种基于微博粉丝关系、用户活跃度和影响力的话题传播模型。将微博用户集合划分为感染用户、易染用户和免疫用户三个部分,传播的影响因素主要有三个:感染用户对其粉丝的感染度,易染用户的活跃度和突发话题本身的突发性。然后通过分析感染用户和易染用户之间的粉丝关系,预测下个窗口内的被感染的用户规模。另外,本文沿用原有话题传播的“内外场强”概念,通过研究发现“内场强”和“外场强”有特定的比例关系。基于用户群的规模大小,本文给出基于用户的话题传播预测和基于规模的话题传播预测,前者结果更准确但是时间复杂度高,后者则更适合大规模数据。综上所述,本文主要根据文本的内容进行突发话题的检测与跟踪,针对现有突发检测算法无法发现有新词组成的突发话题,提出基于特征字话题检测与跟踪的研究思想。在话题传播预测中,充分考虑微博传播的线路和概率性,并结合病毒传播模型,给出基于用户的话题传播预测和基于规模的话题传播预测。通过实验验证了本文所提检测跟踪算法和预测模型,为突发话题检测与跟踪以及话题传播预测研究提供了一些新的想法,最后本文给出了系统的整体框架和对该领域的前景展望。