基于深度学习的多媒体数据感知与计算研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：dillon100200

【摘要】

：

随着移动互联网的发展，越来越多的智能设备被连接到互联网上。这极大地简化了用户在网络上获取和分享信息的途径。在此背景下，互联网上产生了大量由用户上传到Web2.0社交网站的

【作者】

：

杨小汕

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2016年期

【关键词】

：

多媒体数据特征表示语义属性深度学习社会事件分析数据感知

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着移动互联网的发展，越来越多的智能设备被连接到互联网上。这极大地简化了用户在网络上获取和分享信息的途径。在此背景下，互联网上产生了大量由用户上传到Web2.0社交网站的媒体数据，例如图像、文本和视频等。这些多媒体数据的传播加快了信息的流通，连接了全世界各地的用户，降低了沟通和交流的成本。但对于用户和社交媒体网站来说，由于网络多媒体数据具有(1)跨平台，(2)多模态，(3)底层特征与高层语义之间存在“语义鸿沟”，(4)噪声大、信息不完备等特点，管理、检索和分析这些数据仍然是没有被彻底解决的难题。面对上述网络多媒体数据的复杂特性，为了提取和发掘这些数据中的有用信息就需要更为有效的数据感知和计算方法。但目前已有的多媒体数据分析方法依然借助上下文标注信息或者采用人工设计的特征，无法达到对数据内容真正感知和理解的目的。　　本文从网络多媒体数据的跨平台、多模态、语义鸿沟和噪声大这四个特点出发，以近年来在图像、语音等非结构化数据识别中取得突破性进展的深度神经网络为技术基础（主要涉及消噪自编码器，卷积神经网络，循环神经网络），为网络多媒体数据分析学习更有效的特征表示，进而让计算机更好地理解网络多媒体数据内容。并将这些多媒体数据表示方法应用到社会事件的识别与发现中。与已有方法相比，本文的主要贡献体现在如下6个方面:　　1.跨平台特征表示学习。把网络多媒体数据的平台差异问题公式化为迁移学习中不同领域的特征分布差异问题，并利用提升深度学习来减小这种分布差异。我们的提升深度学习算法主要是结合了传统提升(Boosting)算法和深度特征学习算法的思想。随着提升算法的迭代，根据样本分布不断选择新的样本训练新的特征表示，从而得到更能减小源平台数据与目标平台数据之间差异的共同特征表示。在多次迭代结束后，结合多种特征表示以及多个弱分类器对测试样本进行分类。　　2.多模态跨平台特征表示学习。提出一种融合多模态和跨平台特性的统一特征学习框架。通过在同一层消噪自编码器中加入模态相关性约束和平台一致性约束，有效提高特征学习的鲁棒性。带有多模态与跨平台约束的消噪自编码器可以用边缘化的方式有效求解。　　3.图片语义属性学习。针对多媒体数据底层特征与高层语义之间的语义鸿沟问题，提出一种基于深度卷积神经网络的相对属性学习算法。在神经网络框架下，图片的视觉特征是在表示相对属性值的排序损失函数的约束下训练得到。排序损失函数包含对比性约束和相似性约束，分别对应于属性不同的图像对以及属性相同的图像对。　　4.事件视频语义属性学习。为了给视频中的特定事件构建最有效的视觉属性特征，提出一种视觉语义属性的自动学习算法。利用视频的文本描述进行词组分析与分割，计算词组的语义粘滞性自动挖掘语义属性。利用网络辅助图片数据集，计算语义属性的视觉表示力，得到视觉语义属性。采用提升和消噪自编码器选择最有利于事件识别的视觉语义属性。基于多特征表示和多个属性分类器得到测试视频的视觉语义特征表示。　　5.事件视频语义特征学习。提出基于视频和文本描述学习从视频生成语义特征向量的映射函数。为了达到这一目的，提出嵌入式卷积神经网络把视频和对应文本映射到同一个语义特征空间，在语义特征空间中，相关的视频和文本的语义特征向量之间的距离被最小化。嵌入式卷积网络由两支分别用于视频特征表示和文本特征表示的神经网络构成。这种方法在视频训练样本有限的情形下有很好的效果。　　6.网络图片中的社会事件分析。在图片的事件分析中引入时间信息，把事件分析公式化为一个时序的结构化预测问题。借助循环神经网络和卷积神经网络得到事件的时序特征表示，减小类内差异。提出基于离散条件随机场的用于多类别事件识别的判别式结构化事件模型，减轻类间混淆。提出基于连续条件随机场的用于不常见事件发现的单类别结构化事件模型，缓解样本稀缺问题。在事件模型中，条件随机场作为损失函数在统一的框架下来约束循环神经网络和卷积神经网络的训练。

其他文献

嵌入式Linux下数控机床人机界面的设计

在众多嵌入式系统中，Linux以其免费、源代码开放、可精简内核、强大的网络功能和其独特的开发模式等众多的优势赢得了众多开发者的青睐。　　图形用户界面(GUI)一直是整个计算

学位

嵌入式系统嵌入式系统串口编程串口编程数控机床数控机床人机界面人机界面

核函数方法及其在过程建模与故障诊断中的应用研究

核函数方法是一类新的非线性数据处理方法,它将特征空间的非线性计算转换为输入空间的核函数计算,能有效地处理非线性分类和回归问题.本文对核函数方法及其在过程控制中的应

学位

核函数方法过程建模故障诊断支持向量机

离心压缩系统喘振主动控制

离心压缩机流动失稳的表现形式是旋转失速和喘振，为避免旋转失速和喘振，长期以来人们不得不在设计阶段就考虑一定的失速和喘振裕度，但与此同时也就丧失了压缩机在高参数区运行的

学位

压缩系统喘振主动控制离心压缩机

分布式异构环境下监控系统集成的实现方法

本论文介绍了一种基于VC++开发监控软件并实现系统集成的方法，该方法弥补了组态软件的不足，有针对性地解决了系统异构带来的实现系统集成的难题。作为系统集成的前提，在硬件通讯

学位

测控网络分布式异构系统系统集成多线程数据管理楼宇监控

基于神经网络的一类非仿射非线性系统自适应控制

在实际中，很多系统都是非仿射的，所以针对这类系统设计控制器非常重要。一般来说，即使隐函数存在定理保证控制器的存在，从隐含的系统中得到明确的控制器形式也是非常困难的。如果

学位

神经网络非仿射非线性系统Backstepping自适应控制精馏塔

电弧炉电极调节系统控制方法研究

学位

电弧炉冶炼控制方法研究模糊控制自适应控制遗传算法电极位置神经网络非线性系统交流电弧炉调节系统

基于人体运动预测的外骨骼机器人控制算法研究

外骨骼机器人是一种可穿戴式机器人，用于增强穿戴者的运动能力。外骨骼机器人技术作为一门新兴的机器人技术，现已成为机器人领域的研究热点。外骨骼机器人在使用的过程中与人构

学位

外骨骼机器人人体运动预测均值平移算法支持向量机模糊PID控制

一种专用型矫正机控制系统的研究与设计

学位

健康大数据的分析方法与应用研究

随着信息技术的快速发展，健康大数据研究为健康领域带来了巨大机遇。面向规模庞大、关联复杂健康大数据的相关研究能够帮助人们更加科学地认知疾病的病因，分析健康行为的关键影

学位

健康大数据电子医疗病历共病症分析网络分析公共卫生事件流行度预测

集输站自动测控系统的研究与应用

在油田的中后期开发阶段，采出液含水日益增高，采用新技术新方法实现原油脱水过程高效节能运行已经成为油田各集输泵站急需解决的问题。本文对滨南采油厂稠油首站的现场生产

学位

集输泵站分布式控制系统节能降耗串行通信管控一体化图像监控系统

基于深度学习的多媒体数据感知与计算研究

与本文相关的学术论文