论文部分内容阅读
随着信息时代的来临,网络中的信息量呈爆炸式增长趋势,人们是对信息的处理提出了更高的要求。更多、更快、更准的进行信息处理就意味着可以掌握先机,可以得到更具有价值的情报,可以产生更大的经济效益。话题发现及演化作为增量式文本聚类的主要应用之一,具有很广泛的应用前景,在大数据背景下,现有的增量式文本聚类算法大多存在处理效率低下,处理结果较差等问题,很大程度上影响了话题发现的实时性,已经远远不能满足处理大数据的需求。本文首先介绍了热点话题发现的关键技术流程,比较了现有话题发现及演化算法的优势与不足,最终选择利用增量式文本聚类算法Single-Pass来实现热点话题发现及演化分析方法,本文针对传统Single-Pass算法处理文本的时间开销会随着文本增加呈指数趋势增长的问题,提出了一种基于MapReduce的Single-Pass算法,对分布式的Single-Pass算法做进行了可行性证明,实验结果证明算法的效率有了明显提高,针对简单的分布式Single-Pass算法无法详细描述话题的内部结构及演化过程,提出了一种分布式条件下的层次化Single-Pass算法,算法提高了话题的描述能力,实验证明分布式条件下的层次化Single-Pass算法提高话题发现的精度和准确度。其次,本文分析了现有网页文本的特点,根据网页文本的特点提出了一种合理的话题热度计算方法,通过加入衰减指数和时间片的概念,提出增量式文本聚类与衰减指数相结合的话题动态演化方法,通过话题热度计算公式计算每一个时间片内话题的热度,话题总体热度的计算是通过指数衰减的方式加和不同时间片内的话题热度,通过引入话题热度阈值和关键字热度阈值的概念提高了算法的可行性和效率,实验证明算法可行有效。最后通过在真实数据集进行试验来分析基于MapReduce的热点话题发现及演化方法的效能。实验证明算法提高了聚类的准确性、降低了算法的时间开销,基于增量式文本聚类与衰减指数相结合的话题演化算法的话题准确刻画了话题及子话题详细的演化过程。因此基于MapReduce的热点话题发现及演化分析方法在舆情监控领域有很强的应用前景。