论文部分内容阅读
随着网络技术的不断发展和社交媒体的流行,当前媒体社会进入到“自媒体”时代。在自媒体时代,人人都是信息的传播者以及推动事件发展的主要力量,这就使得网络信息传播速度更快,受众更广,内容更加丰富。近年来大量研究者投入到基于内容的跨媒体多模态信息管理的研究工作,基于多模态信息的跨媒体话题检测与跟踪成为其中重要的一部分。但是具有明显差异性的跨媒体数据和具有多样性的网络话题使跨媒体话题检测和跟踪非常具有挑战性。 在本论文中,我们充分考虑跨媒体多模态数据特征差别大、结构不整齐的特点,将跨媒体数据包含的异质多模态信息抽象为图模型,对不同模态数据分别构建单模态图,并综合考虑话题本身的多粒度性,利用无监督的图聚类方法进行跨媒体话题检测。同时,针对话题数据的特点提出两层密集子图恢复的思路进行话题跟踪。本文的主要研究内容和核心贡献如下: (1)针对缺少数据集的问题,本文构建了专门针对跨媒体话题检测与跟踪任务的数据集。现阶段话题检测与跟踪研究内容主要集中在新闻博客等文本信息或者网络视频内容,同时包含来自不同媒体源的多模态信息的数据集较少。我们针对跨媒体话题检测与跟踪任务,提取了与该任务相关的文本、视觉信息的特征,并对数据集的所包含的社会话题进行了人工标注,构建了可供跨媒体话题检测与跟踪算法进行实验验证的数据集,。 (2)针对跨媒体话题检测问题,本文提出了一种基于多模态信息融合的跨媒体话题检测方法。该方法从多模态信息融合入手,将不同模态的数据抽象为图模型,对每种模态都建立单独的图结构,并通过加入空节点,解决了数据模态缺失的问题,使所有模态的数据均具有相同的图结构,然后利用集合相似度代替原数据相似度,用来应对不同模态信息的异质问题,使得异质图能够转化为同质图,便于进行数据融合。利用我们的多模态融合框架,只需要简单的引入一个单模态图,便可以加入其他可以带来增益的信息,提高检测性能。 (3)针对跨媒体话题跟踪过程中话题主题漂移现象以及数据稀疏问题,本文提出了一种基于密集子图恢复的话题跟踪方法。话题跟踪可以看作是话题的连续检测,所以我们首先按照时间顺序划分时间轴得到时间片段,对不同时间段的数据分别建图,并检测各个时间片段内的事件。然后对相邻时间片段的密集模式,根据其内容的关联性建立局部矩阵并进行密集子图恢复,将具有强内容相关性的事件串联。最后按照时间线,串联各个时间片段相关的密集子图,得到最终的话题。 总体而言,本文的工作围绕跨媒体的多模态数据融合展开,综合考虑话题检测和跟踪的任务特性,提出了有效进行跨媒体话题检测与跟踪的方法。