论文部分内容阅读
社交媒体的发展改变了用户理解和跟踪现实世界中的事件的方式。在社交媒体上,用户可以上传并分享与这些这些事件相关的内容,例如文本、图像、视频等多种模态的信息。大量的信息分布在各种各样的在线社交网络上,社交网络提供了丰富的、有广泛覆盖度的、全面的有关流行事件的信息。本文利用这些信息,提出了社交媒体跨平台信息检索和事件预测方法的框架。面对着如此大量的信息,搜索成为了事件理解和跟踪的一个方便的工具。然而,目前的单平台的社交媒体搜索往往仅针对单个平台上单种模态的信息。不仅如此,大多数的社交媒体仅仅展示了事件的某一个有偏的角度,这严重的限制了基于单个平台的搜索的覆盖度和多样性。本文提出了一个创新的跨平台的框架来整合这些跨网络的针对一个事件的信息,在信息检索领域提供了一种浸入式的搜索体验。由于社交媒体信息的跨网络分布特性,这些异构的社交网络之间存在着语义上的鸿沟,因而本文提出了使用标签以及哈希标签来作为桥梁,连接这些异构的社交网络。标签和哈希标签是很多社交平台使用的用户产生的元数据,这些元数据常常被用来进行组织和标记。本文提出了一种四个步骤的框架,框架中使用了多种方法来进行哈希标签和标签的过滤以及搜索结果的表示,聚类和表达。给出一个搜索词,第一个步骤获取了社交媒体上的信息以及相应的哈希标签和标签,并且将所需要的合适的哈希标签与标签过滤出来。第二个步骤和第三个步骤分别对这些哈希标签和标签进行了主题的表示和聚类。最后一个步骤将搜索结果组织为一个分层式的表达。本文的框架在一个大量搜索词构成的数据集上进行了定性和定量的分析,展示了其有效性。面对多平台的信息分布,进行信息的预测成为了研究者们关注的重点。新闻平台通常来说提供严肃的,客观的信息,社交媒体则如上所述,记录并传播社会事件相关信息并且实时的主观的讨论社会事件。基于平台间的互补信息,本文提出了跨平台社会事件的主题预测任务。本文从新闻媒体和社交媒体分别收集了社会事件相关的事件,按照时间将信息分割成时间切片序列,用平行的时间窗口在不同的平台上滑动,构建了序列的平行数据集。这些时间切片也由主题建模的方案给出的主题空间生成每个切片的主题分布和嵌入,平行数据集被应用于序列到序列模型(Sequence-to-Sequence,Seq2Seq)来训练出跨平台主题预测模型,相应的实验也说明了本文方案的有效性。