论文部分内容阅读
网络信息流中包含着显式或隐式的突发事件,从这些海量信息流中检测或预测突发事件具有重大意义。通过检测或预测出突发事件,有关应急部门可以做好充足准备和应对策略,将损失降到最低;普通用户可以沉着应对突发事件,不至于扩大突发事件的危害性,增加不必要心理压力。与突发事件有关的研究在国内外屡见不鲜,已取得不少成果。但目前的研究主要局限于突发事件自身特色的理论方面,在检测和预测等技术方面虽有但不多。特别是大数据环境下的突发事件检测和预测技术研究更是凤毛麟角。本文想要解决的问题是“如何在大数据环境下的网络信息中准确、快速地检测出突发事件”。该问题可分解为两个子问题,一是在大数据环境下如何从网络信息中准确地检测出突发事件,二是如何快速地检测出突发事件。针对两个子问题,本文先分析了突发事件检测的相关理论与主要技术,然后对大数据环境下的突发事件检测模型和方法进行研究,具体包括以下4个方面:(1)论述了突发事件、突发事件检测及大数据并行计算等相关概念与技术;(2)以perplexity(困惑度)作为主要评价指标,分析了PLSI、LDA(?)HDP等基于概率生成的主题模型的优缺点;(3)提出突发事件并行检测模型,以适应大数据环境下准确、快速地检测突发事件;(4)利用Yahoo news新闻与新浪微博两种不同类型数据源进行实证研究。本文主要研究成果是提出了突发事件并行检测模型,使得该模型能够胜任大数据环境下突发事件检测任务。该并行模型分为4个步骤,分别是语料并行预处理、突发词并行检测、潜在突发文本并行过滤和LDA主题并行抽取。该并行模型可在当前最流行的快数据处理平台Spark上执行。上述的并行检测模型,应用于实际业务中就形成并行检测系统。本文的并行检测系统就运行于Spar k平台。此外,本文对并行检测模型进行了实证研究。通过Yahoo news新闻与新浪微博两种不同类型数据源的实证研究,表明本文所提的突发事件并行检测模型(方法)具有较高的准确性和较好的可扩展性。具体的实证研究工作是:(1)在Yahoo news新闻数据源方面,主要做了突发事件检测准确性实验;概述了全部数据的检测实验并具体阐述了4月、5月、6月的检测实验,通过实验表明本文所提的突发事件并行检测模型准确率P、召回率R和调和平均值F分别可达84.62%、78.57%和81.48%。(2)在新浪微博数据源方面,进行了加速比和可扩展比的有效性实验;对突发事件并行检测系统中耗时最长的LDA主题并行抽取模块,进行了LDA迭代次数、LDA主题数、Spark分区数和运行Spark的硬件平台使用情况等实证研究。