论文部分内容阅读
移动视频检索技术是视频检索领域中一个前沿的研究课题。近年来,移动设备的飞速发展,改变了互联网上视频内容的产生,以及人们检索和观看视频的方式。移动设备的便携性和无处不在的网络接入能力使其逐渐成为主要的视频访问和查询入口,而移动设备上丰富的传感器原件,也使得移动视频检索过程更加自然、有效。因此,移动视频检索具有巨大的市场需求和应用前景。但是,现有移动视频检索相关工作大多沿袭了传统桌面视频检索技术,忽略了移动视频检索的特有挑战和需求。不同于传统的桌面视频检索,移动视频检索主要面临如下挑战:1)查询视频受拍摄环境影响产生严重图像形变和音频噪声;2)移动设备计算性能有限;3)移动网络带宽限制;4)移动用户更重视视频检索体验。 针对移动视频检索的特点与挑战,本文对移动视频检索中的关键技术进行了研究。在移动设备上,我们主要研究了移动视频签名快速生成与加速技术;在服务端,我们研究了针对大规模视频数据进行快速检索的音/视频分层哈希索引与渐进式匹配技术。为提升用户搜索体验,我们还针对移动视频检索的结果展示研究了基于视觉-语义深度嵌入的查询相关视频缩略图选择技术。在此基础上,研发了一套新颖的实时移动视频检索系统。本论文的主要贡献总结如下: 1.基于渐进式传输的视频签名生成与加速方法 移动视频检索的特有挑战要求移动视频签名具有计算简单、存储高效、区分性强、易传输和易索引等特点。针对现有视频签名计算复杂、区分能力差且传输数据量较大的问题,本文提出了一种多模态的紧凑视频签名生成方法和一种基于Hessian显著度加权融合的渐近式视频签名传输方法。该哈希签名方法融合了视觉哈希码和音频指纹特征,充分挖掘了不同模态特征之间的互补性,有效应对查询视频在拍摄过程中造成的图像形变和音频噪声,提高了检索精度。同时渐近式传输方法能大幅减少网络传输数据量,从而显著提高移动视频检索效率和识别比特率。经实验验证,该算法每秒只需要传输0.88KB的特征,与已有最好方法相比,在提高查准率的情况下,减少了33.5%的查询延迟。 2.音/视频分层哈希索引与渐进式视频匹配方法 针对现有二进制哈希索引方法只能处理单模态特征且检索精度不高的问题,本文提出了一种音/视频分层哈希索引与匹配方法。该方法通过音/视频分层过滤策略,高效地融合了视觉和音频两种互补的模态特征,以充分挖掘多模态特征之间关联,显著提高了检索精度。针对移动视频检索中子序列匹配问题,我们提出了利用二分图转换和最大匹配算法实现查询视频与源视频的渐进式匹配。该算法可对查询视频进行精确定位,并伴随查询视频录制过程,实时动态更新视频匹配结果,自动结束视频查询过程。在提高查询准确率的基础上,显著提高了用户的使用体验。为验证本文所提算法的性能,我们构建并发布了一个包含600小时源视频、1400个真实查询视频的移动视频检索评测数据集。在该数据集上的评测结果显示,本文算法获得91.59%的查询准确率,比现有最好方法提高了4%。 3.基于视觉-语义深度嵌入的查询相关视频缩略图选择方法 视频缩略图能集中展现视频的主要内容。而由于移动网络带宽的限制,只移动视频检索结果展示阶段选择有效的视频缩略图对于帮助移动用户快速浏览、发现目标视频起着至关重要的作用。但是现有视频缩略图选择方法没有利用视频语义信息,因而无法体现用户的查询意图。为此,本文提出了一种基于多任务学习策略的视觉语义深度嵌入方法,将不同模态的文本信息和视觉信息映射到同一个隐含语义空间,直接度量两者之间的相似度,以挖掘文本查询和视频缩略图的语义关联,使得选择的缩略图能充分反映用户的查询意图。该方法不受训练过程中语义类别的限制,能够有效应对互联网不可预测的多类别查询和视频。且通过多任务深度学习技术,该方法可在大规模带有用户点击信息的视频/图像数据集上充分挖掘用户查询与视频缩略图之间的关系。在亚马逊标注平台上191个标注人员参与标注的17,480个查询-缩略图集合上的评测结果显示,本文算法的缩略图选择效果比已有最好方法提升了约6%。