论文部分内容阅读
步入Web2.0时代,各种社交媒体繁荣起来,成为人们活跃的另一个世界。推特是最活跃的社交网络平台之一,也是各种数据挖掘工作的热门平台。它不仅提供了海量丰富的数据,而且受益于推特提供的实时数据采集API,用户可以很容易获取推特上的实时数据。基于推特的事件检测就是从这些实时数据中提取有价值事件的方法,可以用于舆论监控、实时预警、减少灾害损失、实时智能决策,也可以作为新闻媒体的消息来源,以提高新闻发布速度、降低成本。基于推特的事件检测有很多种研究方法,其中最主要的是基于文本聚类的方法。以往基于文本聚类的事件检测方法仅考虑短文本聚合性差的问题,通过引入时间戳、Hashtag等额外的信息来改善该问题。然而,由于推文多噪的特点,这些方法会导致混入更多的噪声推文,从而影响事件检测效果。本文基于流式推文数据,针对推文多噪的特点提出了新的事件检测方法,主要研究内容和创新点如下:(1)针对推文流中存在大量噪声,提出噪声环境的事件检测方法。该方法首先通过增量聚类将推文聚合成事件簇,然后利用事件去重去除描述一个事件的多余推文簇。针对Single-Pass增量聚类顺序性等问题,提出了Batch-Pass增量聚类。它在Single-Pass增量聚类前引入预聚类,预聚类采用层次聚类等批量聚类方法,可以有效改善Single-Pass增量聚类的顺序性问题,并在一定程度上提高短文本的聚合性。针对社交短文本聚合性差导致的事件簇重复问题,提出基于语义SimHash的事件去重方法,该方法保证事件去重效果,并能适用于大规模实时数据的处理。(2)针对事件检测结果与现实事件不能完全对应的问题,提出基于用户行为特征的现实事件判定方法。通过对推特用户行为统计特性研究分析,发现用户的不同行为对事件在社交网络传播过程中有不同的作用。通过提取候选事件簇的统计行为特征和突发特征,利用有监督机器学习方法来实现事件判定。该方法通过从候选事件簇的推文文本、元数据中提取用户的统计行为特征,并结合推文的Kleinberg状态序列的突发特征,训练分类器,利用分类器实现对候选事件簇的二分类。实验结果表明,Batch-Pass比Single-Pass有更好聚类效果,在有噪声的情况下,提出的事件检测方法能检测出数据集中的所有预定义事件,同时比基于SinglePass的事件检测方法输出事件的冗余更少,基于用户行为的事件判定方法比基于Word2Vec语义的事件判定方法的准确率高6.88%。