论文部分内容阅读
随着移动互联网的发展,越来越多的智能设备被连接到互联网上。这极大地简化了用户在网络上获取和分享信息的途径。在此背景下,互联网上产生了大量由用户上传到Web2.0社交网站的媒体数据,例如图像、文本和视频等。这些多媒体数据的传播加快了信息的流通,连接了全世界各地的用户,降低了沟通和交流的成本。但对于用户和社交媒体网站来说,由于网络多媒体数据具有(1)跨平台,(2)多模态,(3)底层特征与高层语义之间存在“语义鸿沟”,(4)噪声大、信息不完备等特点,管理、检索和分析这些数据仍然是没有被彻底解决的难题。面对上述网络多媒体数据的复杂特性,为了提取和发掘这些数据中的有用信息就需要更为有效的数据感知和计算方法。但目前已有的多媒体数据分析方法依然借助上下文标注信息或者采用人工设计的特征,无法达到对数据内容真正感知和理解的目的。 本文从网络多媒体数据的跨平台、多模态、语义鸿沟和噪声大这四个特点出发,以近年来在图像、语音等非结构化数据识别中取得突破性进展的深度神经网络为技术基础(主要涉及消噪自编码器,卷积神经网络,循环神经网络),为网络多媒体数据分析学习更有效的特征表示,进而让计算机更好地理解网络多媒体数据内容。并将这些多媒体数据表示方法应用到社会事件的识别与发现中。与已有方法相比,本文的主要贡献体现在如下6个方面: 1.跨平台特征表示学习。把网络多媒体数据的平台差异问题公式化为迁移学习中不同领域的特征分布差异问题,并利用提升深度学习来减小这种分布差异。我们的提升深度学习算法主要是结合了传统提升(Boosting)算法和深度特征学习算法的思想。随着提升算法的迭代,根据样本分布不断选择新的样本训练新的特征表示,从而得到更能减小源平台数据与目标平台数据之间差异的共同特征表示。在多次迭代结束后,结合多种特征表示以及多个弱分类器对测试样本进行分类。 2.多模态跨平台特征表示学习。提出一种融合多模态和跨平台特性的统一特征学习框架。通过在同一层消噪自编码器中加入模态相关性约束和平台一致性约束,有效提高特征学习的鲁棒性。带有多模态与跨平台约束的消噪自编码器可以用边缘化的方式有效求解。 3.图片语义属性学习。针对多媒体数据底层特征与高层语义之间的语义鸿沟问题,提出一种基于深度卷积神经网络的相对属性学习算法。在神经网络框架下,图片的视觉特征是在表示相对属性值的排序损失函数的约束下训练得到。排序损失函数包含对比性约束和相似性约束,分别对应于属性不同的图像对以及属性相同的图像对。 4.事件视频语义属性学习。为了给视频中的特定事件构建最有效的视觉属性特征,提出一种视觉语义属性的自动学习算法。利用视频的文本描述进行词组分析与分割,计算词组的语义粘滞性自动挖掘语义属性。利用网络辅助图片数据集,计算语义属性的视觉表示力,得到视觉语义属性。采用提升和消噪自编码器选择最有利于事件识别的视觉语义属性。基于多特征表示和多个属性分类器得到测试视频的视觉语义特征表示。 5.事件视频语义特征学习。提出基于视频和文本描述学习从视频生成语义特征向量的映射函数。为了达到这一目的,提出嵌入式卷积神经网络把视频和对应文本映射到同一个语义特征空间,在语义特征空间中,相关的视频和文本的语义特征向量之间的距离被最小化。嵌入式卷积网络由两支分别用于视频特征表示和文本特征表示的神经网络构成。这种方法在视频训练样本有限的情形下有很好的效果。 6.网络图片中的社会事件分析。在图片的事件分析中引入时间信息,把事件分析公式化为一个时序的结构化预测问题。借助循环神经网络和卷积神经网络得到事件的时序特征表示,减小类内差异。提出基于离散条件随机场的用于多类别事件识别的判别式结构化事件模型,减轻类间混淆。提出基于连续条件随机场的用于不常见事件发现的单类别结构化事件模型,缓解样本稀缺问题。在事件模型中,条件随机场作为损失函数在统一的框架下来约束循环神经网络和卷积神经网络的训练。