论文部分内容阅读
微博作为新兴的社交网络媒体,以其传播快、时效性强、内容全面的优势成为突发事件信息快速聚集和传播的重要渠道。但指数增长的微博数据使得用户难以及时了解整个事件的细节信息,且微博自由化程度高,突发事件在微博上容易被恶意传播,给国家安全和社会稳定带来了极大的隐患。因此从海量微博中准确而高效地检测出突发事件具有重要的意义,不仅可以帮助用户实时获取重要的突发事件资讯,消除突发事件带来的恐慌心理,还能够协助应急管理机构实时把握突发事件的发展态势,合理地控制和引导舆论发展方向,为舆情应急管理提供决策信息支持。微博因噪声大、文本短小稀疏、不规范等特点给突发事件检测带来了挑战,本文通过分析突发事件发生时期的爆发特性,结合微博数据的特点,对以突发特征为中心的突发事件检测方法及其舆情热度分析进行了深入研究。突发事件检测上,首先在综合考虑词语的主题表达能力和突发性的基础上,引入参照时间窗机制,设计了词频、文档频率、话题标签Hashtag、词频增长率四类特征选择与计算方法,提出了基于动态阈值的突发主题词抽取算法,实验结果表明该方法可以准确的提取有效表征事件的突发主题词。然后提出了基于突发主题词和凝聚式层次聚类的突发事件检测算法。该算法以突发主题词作为突发特征,将微博文本表示为特征向量,引入微博事件三要素过滤策略保留高质量的微博,以Jaccard计算重合度作为相似度衡量标准构造微博文本相似度矩阵,使用凝聚式层次聚类算法实现了突发事件的检测。实验结果表明,突发事件检测方法达到了80%的准确率,验证了该方法的可行性和有效性。针对检测的突发事件,对微博用户网络特征和微博传播方式分析,从用户影响力和微博传播影响力两个视角提出了突发事件的舆情热度计算模型,并构造单位时间片进行舆情热度的时序变化分析,通过实例分析发现,该模型能够较准确的划分突发事件的舆情生命周期,从整体上了解突发事件的发展趋势及变化规律。