移动视频检索关键技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:goskatecomcn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
移动视频检索技术是视频检索领域中一个前沿的研究课题。近年来,移动设备的飞速发展,改变了互联网上视频内容的产生,以及人们检索和观看视频的方式。移动设备的便携性和无处不在的网络接入能力使其逐渐成为主要的视频访问和查询入口,而移动设备上丰富的传感器原件,也使得移动视频检索过程更加自然、有效。因此,移动视频检索具有巨大的市场需求和应用前景。但是,现有移动视频检索相关工作大多沿袭了传统桌面视频检索技术,忽略了移动视频检索的特有挑战和需求。不同于传统的桌面视频检索,移动视频检索主要面临如下挑战:1)查询视频受拍摄环境影响产生严重图像形变和音频噪声;2)移动设备计算性能有限;3)移动网络带宽限制;4)移动用户更重视视频检索体验。  针对移动视频检索的特点与挑战,本文对移动视频检索中的关键技术进行了研究。在移动设备上,我们主要研究了移动视频签名快速生成与加速技术;在服务端,我们研究了针对大规模视频数据进行快速检索的音/视频分层哈希索引与渐进式匹配技术。为提升用户搜索体验,我们还针对移动视频检索的结果展示研究了基于视觉-语义深度嵌入的查询相关视频缩略图选择技术。在此基础上,研发了一套新颖的实时移动视频检索系统。本论文的主要贡献总结如下:  1.基于渐进式传输的视频签名生成与加速方法  移动视频检索的特有挑战要求移动视频签名具有计算简单、存储高效、区分性强、易传输和易索引等特点。针对现有视频签名计算复杂、区分能力差且传输数据量较大的问题,本文提出了一种多模态的紧凑视频签名生成方法和一种基于Hessian显著度加权融合的渐近式视频签名传输方法。该哈希签名方法融合了视觉哈希码和音频指纹特征,充分挖掘了不同模态特征之间的互补性,有效应对查询视频在拍摄过程中造成的图像形变和音频噪声,提高了检索精度。同时渐近式传输方法能大幅减少网络传输数据量,从而显著提高移动视频检索效率和识别比特率。经实验验证,该算法每秒只需要传输0.88KB的特征,与已有最好方法相比,在提高查准率的情况下,减少了33.5%的查询延迟。  2.音/视频分层哈希索引与渐进式视频匹配方法  针对现有二进制哈希索引方法只能处理单模态特征且检索精度不高的问题,本文提出了一种音/视频分层哈希索引与匹配方法。该方法通过音/视频分层过滤策略,高效地融合了视觉和音频两种互补的模态特征,以充分挖掘多模态特征之间关联,显著提高了检索精度。针对移动视频检索中子序列匹配问题,我们提出了利用二分图转换和最大匹配算法实现查询视频与源视频的渐进式匹配。该算法可对查询视频进行精确定位,并伴随查询视频录制过程,实时动态更新视频匹配结果,自动结束视频查询过程。在提高查询准确率的基础上,显著提高了用户的使用体验。为验证本文所提算法的性能,我们构建并发布了一个包含600小时源视频、1400个真实查询视频的移动视频检索评测数据集。在该数据集上的评测结果显示,本文算法获得91.59%的查询准确率,比现有最好方法提高了4%。  3.基于视觉-语义深度嵌入的查询相关视频缩略图选择方法  视频缩略图能集中展现视频的主要内容。而由于移动网络带宽的限制,只移动视频检索结果展示阶段选择有效的视频缩略图对于帮助移动用户快速浏览、发现目标视频起着至关重要的作用。但是现有视频缩略图选择方法没有利用视频语义信息,因而无法体现用户的查询意图。为此,本文提出了一种基于多任务学习策略的视觉语义深度嵌入方法,将不同模态的文本信息和视觉信息映射到同一个隐含语义空间,直接度量两者之间的相似度,以挖掘文本查询和视频缩略图的语义关联,使得选择的缩略图能充分反映用户的查询意图。该方法不受训练过程中语义类别的限制,能够有效应对互联网不可预测的多类别查询和视频。且通过多任务深度学习技术,该方法可在大规模带有用户点击信息的视频/图像数据集上充分挖掘用户查询与视频缩略图之间的关系。在亚马逊标注平台上191个标注人员参与标注的17,480个查询-缩略图集合上的评测结果显示,本文算法的缩略图选择效果比已有最好方法提升了约6%。
其他文献
人脸是人类最重要的生物特征之一,传递着性别、表情、年龄、种族等丰富的信息。利用计算机进行人脸图像分析是计算机视觉和模式识别领域里的一个重要课题,作为人脸识别技术的重
随着计算机技术和网络技术的迅猛发展,计算机系统已经从独立的主机发展到复杂的、互联的开放式系统,这种情况导致计算机及网络的入侵问题越来越突出,为保护系统资源,需要建立不同
风云四号(FY-4)静止气象卫星是我国第二代地球同步轨道卫星,主要负责观测大气环境。不同于美国、欧洲将成像仪和探测仪分别安装在不同的卫星上,FY-4将两个载荷安装在同一颗卫星
语义异构是虚拟组织成员间实现信息共享所面临的一个核心挑战。解决此问题的一种有效方法是集成成员本体,形成领域知识的公共全局视图(虚拟组织本体),从而为异构资源提供统一的
中医是中华民族的瑰宝,辨证论治是其之精髓。方剂是中医辨证论治的完整体现,它集中医之理、法、方、药于一体,是一个经历了几千年积累的庞大数据集合。数据挖掘是一种新兴的信息
本文针对传统分类方法在解决大规模数据集时存在的问题,提出了一种新的分类方法-基于核最近邻表面的分类方法。本文首先分析了该方法的基本原理和主要思想:该方法将训练集按照
随着计算机、多媒体技术和网络的迅速发展,网络上的数字内容的使用呈指数级增长。数字内容容易复制、方便存储和传播等特点使其版权问题日益突出,相关的版权保护问题引起了各国
数控机床是按照编制好的加工程序自动地对工件进行加工的高效自动化设备。自1952年第一台数控机床问世以来,数控加工技术得到了飞速的发展和推广。而数控加工机床与编程技术
为了操作不同来源的数据,通常需要进行数据集成,而在数据集成的过程中经常会遇到数据异质问题。传统的数据集成方法如联邦数据库、中介系统和数据仓库等由于着眼于数据本身的结
Web服务发现是Web服务系统架构的重要部分,发现符合用户需求的服务是实现服务复用、组合的重要前提。服务发现的效果直接关系到服务调用的质量,影响到服务组合的相容性和可替换