论文部分内容阅读
随着移动互联网和社交网络的发展,人们的生活方式也在发生变化,许多社交网站(如Facebook,YouTube和微信)如雨后春笋般涌现,导致出现各种社会事件的大量多媒体数据(如文字,图片和视频)。并且伴随着互联网上数据的积累和特征表示学习技术的进步,从大规模知识库中学到的知识嵌入也已被用于概率主题模型。本文的目标是从大量无序的社交媒体数据中高效挖掘出事件主题,从而有利于用户或政府对重大社会事件的搜索、浏览和监控。然而,基于多模态信息学习可解释的主题和判别性事件表示是非常具有挑战性的。(1)本文首先提出了一种用于社会事件分析的基于知识的多模态加权主题模型(Knowledge-based Multi-modal Weighted Topic Model,KBMMWTM)。提出的KBMMWTM模型具有以下优点:1)提出的KBMMWTM模型可以有效地利用社会事件数据的多模态性;2)提出的KBMMWTM模型利用数据集中的词相关性作为先验知识,可以提高事件主题挖掘的性能。最后,我们在真实数据集上评估了我们的KBMMWTM模型,完整的实验表明我们的模型优于最先进的模型。(2)紧接着本文又提出了一种用于多模态社会事件分析的基于知识嵌入的主题模型,记作KE-MMTM(Knowledge Embedding Based Multi-modal Topic Model)。与其他现有方法相比,我们的工作有三个主要优势:1)我们的模型可以将附加的知识图嵌入作为先验知识集成到统一的主题模型中,利用知识嵌入,最大间隔分类器和多模态信息来获得更多的事件描述;2)我们使用WN18知识库(包含151,442个三元组,40,943个实体和18个关系)来学习知识嵌入向量,然后将具有由这些实体向量编码的先验知识的多模态数据合并到主题模型中从而学习更一致的主题;3)为了用于事件主题挖掘和分类研究,本文收集并公开发布了大规模多模态数据集(包括10个事件,每个事件包含约7000条信息)。大量的实验表明,所提出的方法在主题一致性方面优于(具有83.2%的分类准确度)现有的模型。