论文部分内容阅读
随着互联网技术及移动终端的快速发展与普及,社交媒体已融入人们的日常生活中,其传播的信息已成为人们获取信息的重要来源。与传统媒体相比,在社交媒体中用户不仅是信息消费者还是信息创造者及传播者,社交媒体为信息的传播、交流及分享提供了新的途径。微博作为一种主要的社交媒体形式,拥有了数以亿计的用户,大量由用户生成的内容使得微博成为发现和分析热点事件的重要数据来源。由于微博平台的开放性,通过该平台发布的信息量是巨大且冗杂的,如果不经过处理,超过负荷的信息量将会导致信息淹没问题。因此,只有有效地从微博数据中发现事件并将其进行整理及总结,才可以使人们快速高效地获得自己需要的信息。基于此,本文以面向微博的热点事件发现与脉络生成作为研究内容,论文的主要工作如下:1)利用微博提供的海量丰富数据、其时空情境及交互特征以有效地发现热点事件,并且基于微博的传播模式、用户交互特性、信息发布的行为等不同维度的特征对事件的类型(虚拟事件、真实事件)进行分类。最后,通过实验验证了事件发现及事件分类方法的有效性。2)通过研究微博在四个不同维度(文本、时间、图像及用户交互)下的关系,建立多层的事件刻画模型,利用多维关系融合的结果生成事件发展脉络。实验结果表明,利用本文提出的事件分割算法可以得到细粒度的事件总结,该总结可反映事件动态的发展变化,此外,本文提出的线索关联性识别算法可以有效地挖掘事件中具有强关系(如因果关系、补充关系及相关关系)的线索集合。3)微博中的多媒体数据丰富却冗杂,需要通过计算文本和图像之间的相关性以挑选出具有代表性的图像集合用于事件总结。然而,文本和图像所在的表达空间并不相同,因此,本文结合跨媒体数据关联的方法提出了跨媒体数据优选算法(CMM)。通过与已有算法进行对比,实验结果表明,利用CMM选择的图像集合在保证数据代表性的同时还提高了数据多样性。