基于多模态特征的多媒体事件检测

来源 :北京邮电大学 | 被引量 : 5次 | 上传用户:wangtantan121212
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视频由于其内容的丰富性、直观性和生动性,一直被广泛应用于我们生活的各方各面。但是随着“互联网+”时代的到来,视频数据规模急剧扩大,人工地去分析和管理海量的视频数据将耗费巨大的人力,多媒体事件检测(Multimedia event detection,MED)任务应运而生,并成为近年来计算机视觉和视频检索领域的一个热点研究内容。近年来深度学习在图像领域不断取得了重大突破,为其它深度学习领域提供了十分有效的参考,但是对于MED等复杂的视频任务中,并没有一套成熟的网络结构。本文对基于多模态特征的多媒体事件检测进行详细的探究,针对现有主流框架,基于语义和基于平均帧方法的优势和不足,主要工作内容如下:1.首先,本文结合深度学习和传统特征聚合方法的优势,将CNN和VLAD应用于视频事件检测当中,取得了不错的成果。2.其次,针对视频多媒体的层次性,结构性,复杂性等特点,实验性的在多媒体事件检测任务上加入了音频特征的提取,与视觉特征互补,并针对多媒体事件检测任务样本的缺乏,搭建了一套行之有效的特征提取框架。3.最后,搭建了一个基于多模态特征的多媒体事件检测系统,在多个数据集上进行了测试,参加了 TRECVID 2017 MED竞赛并获得第二名,验证了本文提出的多媒体事件检测框架及算法的有效性。
其他文献
“打量水”是浓香型大曲酒酿造中重要操作,量水温度要求不低于80℃,每100kg粮粉打量水80~90kg,采用上大下小的“梯梯水”方式较为合理。入窖发酵条件包括温度、酸度、水分、淀
相干光通信因探测灵敏度高、通信容量大、通信距离远等优点得到了广泛重视,但同时也面临着巨大挑战,其中大气湍流会引起信号光偏振态的随机变化,温度的变化也会使光的偏振态发生缓慢漂移,而光混频器对信号光和本振光的偏振态比较敏感,偏振的变化会影响光混频效率,因此必须采用偏振控制技术对信号光的偏振态进行控制,研究偏振控制技术对提高相干光通信系统的性能有着重要意义。本文以相干光通信为背景,展开了偏振对混频效率和
语言是人类交际的基础和重要工具,是社会发展的产物,语言是保存和传递人类社会发展成果的重要工具。语言形式一定程度上会随着时间和环境的变化而产生变化,也会呈现出新的特点和时代的烙印。语言能够体现出时代和文化的特点,也能够客观真实地记录社会现状和反应社会发展的趋势,同时还可以反映出人们的心理。随着互联网的普及与快速发展,应运而生的网络语言,作为一种特殊的语言现象,无论是从语音、词汇、语义以及在运用等方面
复杂裂缝内的支撑剂输送是压裂现场急需改善的关键问题之一,通过提高支撑剂在分支缝内的充填效率,能够显著提高油气增产效果.目前,复杂裂缝内的支撑剂输送研究还处于室内实验
本文对企业清洁生产含义进行概述,然后对清洁生产审核对节能减排、产业升级提升的影响实行分析,对企业清洁生产审核提高节能减排、产业转型升级的方法予以探析,以此切实提高
截止2016年12月底,上海证券交易所和深圳证券交易所共有3000多家上市公司,总市值约为54万亿,沪深两市市值分别约为32万亿和22万亿,在全球证券市场中分别排名第四和第五,中国
使用multi—Agent的建模思想,以现实为基础建立了一个舆论涌现的仿真模型.该模型主要由个体和媒体以及它们之间的规则组成.个体的属性包括了个体之间的信任度、个体观点的可信度
主要从瑜伽的呼吸法、冥想术和瑜伽的背景音乐等几个方面详细论述瑜伽的养生价值所在,进而使人们在进行瑜伽身心修习的过程,受益于它的养生功效.
为了更好的演唱和理解歌剧《苍原》的主要唱段《情歌》,本人对这部作品进行了分析,在查阅、整合大量参考文献之后,从更专业,更客观的角度阐述人物情感,分析作品内涵。本文通
目的探讨新生儿期枫糖尿症临床特点、影像学头核磁频谱特点,以及基因遗传学特征,以便做到早发现、早诊断和早治疗。方法新生儿期枫糖尿症患儿血和尿的遗传代谢筛查、基因学检