论文部分内容阅读
随着移动互联设备和各类传感器愈发普及,人们能够轻松地捕获周围发生的事物,并将其上传到网络上共享。我们所处的世界已经变成了一个感知世界。互联网上的信息在很大程度上可以反映社会上真实发生的事件。现有研究表明,通过互联网发现社会事件具有迅捷性和低成本性,所以面向网络资源进行事件发现已经成为了新媒体网络时代数据挖掘领域中的一个研究热点。然而,目前网络数据中存在异质媒体丰富、数据规模大、实时性高、标注信息易缺失和信息碎片化严重等特点,导致传统面向文本的网络事件发现方法正逐渐失效。如何降低数据规模,解决不同异质元数据之间的协同与融合,以及处理网络数据中普遍存在的数据缺失性和信息碎片化,已经成为web数据挖掘中最需要迫切解决的关键问题。针对上述问题,设计并实现了两种面向异质媒体的网络事件检测算法。1)针对网络数据中的数据量大,异质介质多,标注信息易缺失问题,设计并实现了一种基于时间片划分和多元数据融合的离线式异质媒体网络事件发现算法。该算法首先通过时间片划分和UT模型的建立使得算法能够以近似线性的时间复杂度来进行大规模数据的网络事件检测。然后,通过多元数据融合的方法有效地克服了异质介质多和标注信息易缺失对检测结果的影响。最终,与目前最新的网络事件发现算法的实验结果对比实验,表明了该算法的有效性。2)针对网络数据高实时性和不均衡性的问题,本文结合增量式Single Pass聚类算法,设计并实现了一种基于改进的Single Pass在线式网络事件发现算法。该模型首先通过设定时间窗口以提高系统的运行效率,并在一定程度上缓解了Single Pass算法中数据项容易向大类偏移的问题。然后针对数据集的不平衡性,设计了适用于异质数据的相似度计算方法,并将其应用到在线式网络事件发现的算法中。最后通过实验确定时间窗口的大小和算法阈值等参数。我们将本文提出的事件发现算法与原有的在线式异质媒体网络事件发现算法进行比较,实验结果表明该算法的有效性和实用性。