论文部分内容阅读
随着社交网络的蓬勃发展,社交网络大数据以丰富的跨媒体形式呈现出巨大的增长趋势。由于发布的消息具有快速传播和广泛共享的特点,社交网络跨媒体大数据揭示了大量真实的社会现象,蕴含了海量有价值的突发事件。因此,为了满足大量用户和组织者对突发事件有效管理和形式分析的需求,针对社交网络展开突发事件检测与搜索的研究具有重要的价值和意义。然而,社交网络突发事件中消息的描述形式具有一定的随意性和语义稀疏性,跨媒体数据之间存在着特征空间异构等特点,使得在社交网络大数据中进行突发事件检测与搜索面临着极大的挑战。本文围绕社交网络突发事件检测与搜索问题,对基于社交网络多属性特征的突发事件语义获取与表达、基于深度语义哈希的社交网络突发事件语义分析以及基于多视角图注意力网络的社交网络跨媒体突发事件检测与搜索等关键理论与技术进行了研究。本文取得的主要研究成果如下:(1)针对社交网络跨媒体数据中信息稀疏以及现有方法没有充分挖掘数据之间的关联关系和扩展语义的问题,提出了基于社交网络多属性特征的突发事件语义获取与表达方法,包括基于社交与概念化扩展的短文本语义获取与表达算法(SCSE)和基于标签异构图模型的图像语义获取与表达算法(HHGM)。在短文本方面,SCSE算法基于外部知识库获取短文本显性语义,通过融合话题标签和链接信息等社交网络多属性特征构建社交与概念化语义图模型,挖掘短文本之间潜在的语义相关性。基于社交与概念化语义信息对短文本扩展,在一定程度上克服了突发事件文本数据的语义稀疏性,获取了短文本显隐性扩展的语义特征表示。在图像方面,HHGM算法通过在图像数据中引入话题标签,构建了异构的社交网络图模型,实现了对图像之间语义关联的分析。基于图卷积神经网络的邻居聚合特性,通过关联标签对图像语义进行补充和学习,获取了具有丰富语义表示的图像特征。实验结果表明,提出的SCSE与HHGM算法在社交网络短文本和图像语义的获取与表达中,能够有效地缓解社交网络多模态数据的稀疏性,具有较好的语义获取与表达性能。(2)针对现有的社交网络突发事件语义分析方法在深度语义特征学习和分析中很难克服自身的语义局限性,导致突发事件检测和搜索效果较差的问题,提出了基于双重语义扩展与深度哈希模型的短文本语义分析算法(SCSE-DH),实现高效的突发事件检测和搜索。在提出的SCSE算法的基础上,建立了深度哈希模型,在双重语义扩展后的短文本中进行深度语义特征分析和学习,获得了社交网络短文本蕴意丰富、表示精炼的语义分析结果。基于堆栈式自编码器与语义哈希网络的联合训练学习,有效地捕获和压缩了短文本的内部语义,通过逐层降维保留了短文本的语义信息。基于深度语义哈希特征进行事件检测和搜索,取得了显著的效果。实验表明提出的SCSE-DH算法在短文本语义分析中以及在突发事件检测和搜索任务中的有效性。(3)针对现有的突发事件检测与搜索研究仅面向单一特征进行学习,导致重要信息缺失或对跨媒体信息无法有效融合的问题,提出了基于时间信息指导的多视角图注意力网络模型(T-MVGAN)。建立了社交网络突发事件的多视角模型,在文本、图像和时间因素三个方面对突发事件进行全面综合表示,实现了社交网络跨媒体突发事件特征之间的互补和关联。构建了社交网络跨媒体突发事件异构图模型,基于提出的HHGM算法获取图像语义特征,在文本异构图模型中,学习短文本的语义特征和时间分布特征。建立时间分布信息引导的多视角图注意力网络,将时间特征作为社交网络跨媒体数据之间的共识信息和关联桥梁,对文本和图像特征进行融合,获得了社交网络跨媒体突发事件的有效表示,实现了突发事件检测和搜索。实验表明,T-MVGAN模型能够获得社交网络跨媒体突发事件丰富的特征表示,具有较好的社交网络突发事件检测与搜索的性能。(4)综合提出的基于社交与概念化扩展的短文本语义获取与表达算法(SCSE)、基于标签异构图模型的图像语义获取与表达算法(HHGM)、基于双重语义扩展与深度哈希模型的短文本语义分析算法(SCSE-DH)与基于时间信息指导的多视角图注意力网络模型(T-MVGAN),实现了基于深度学习的社交网络跨媒体突发事件检测与搜索系统,包含社交网络突发事件语义获取与表达模块、社交网络突发事件深度语义分析模块、跨媒体突发事件检测与搜索模块。该系统对本文提出的算法进行了性能的评估和结果展示。社交网络跨媒体突发事件检测与搜索模块分别针对突发事件检测与突发事件搜索两种任务,给出了指定时间段内发生的社交网络跨媒体突发事件的结果以及给定查询内容下的社交网络跨媒体突发事件的搜索结果。该系统验证了本文提出的算法的有效性。