论文部分内容阅读
近年来,视频内容呈现爆炸式增长态势。随着个人数码摄像设备的普及,存储器容量的提升,以及网络环境的改善,越来越多的人热衷于拍摄自己身边各种有趣的视频,并上传到网上与人分享,同时又在网上搜索并欣赏自己感兴趣的视频。对于电影工作者来说,人工处理海量的视频数据是件相当耗时耗力的事,如何更有效地管理并再利用视频成为了当务之急。在社会安全保障行动中,侦察活动必不可少,如何从侦察机和无人机上拍摄的大量视频中提取有用的信息对整个战局起着至关重要的作用。因此,视频检索在国民经济和社会发展中有重大需求,是当今信息社会亟待解决的基本问题之一。然而,视频检索技术面临着巨大挑战。如今的视频检索引擎(如YouTube.com等)基本沿用了文本检索的方式,且文本仅来自于视频外部人们对视频的文本描述,诸如视频标题、标签等,即把视频当作文档来处理。如何自动从视频内在的语音、字幕、图像序列等信息中提取语义继而进行检索极具挑战和吸引力。与文本检索不同,基于内容的视频检索涉及图像处理、语音识别、信息检索、机器学习、模式识别等多个领域的综合交叉学科。美国国家标准局(NIST)自2003年起组织了视频检索竞赛(称为TRECVID),TRECVID已经成为比较视频检索算法性能的全球公共平台,每年吸引了全球众多研究团队的参与。本项研究工作就是在微软亚洲研究院与上海交通大学联合参加TRECVID2007的背景下开展的,并在最后的检索任务中取得了第一名的成绩。本文重点阐述在如下三方面中的研究成果。首先,在基于文本的视频检索中,一方面提出了对从视频中提取出的语音文本实行根据视频语言种类采取不同的文本组合策略,克服了固定文本组合数太小时不能充分利用上下文信息即视频内容在时序上的连贯性而引起的查全率降低,以及组合数太大时不相关的结果被误检索出来而引起的查准率降低的问题。另一方面,改进了在传统文本检索中有良好表现的BM25公式。考虑到传统文本检索时,查询词在文档中被检索到就表明该词出现在该文档中;而在视频检索中,同样出现在语音文本中不同词性的词,在视频画面中体现出来的概率是不同的。因此本文提出在BM25公式中根据词性引入了关键词的权重,使其更好地应用于基于文本的视频检索中。其次,在对基于文本和基于概念检测的检索结果进行融合时,根据视频特点,提出了一种根据查询分类的线性融合,即根据不同类别的查询,对不同模态的检索结果分配一定的权重来进行融合。该方法有不逊于非线性融合的准确率,且易于实现,计算量小,运算速度快,可用于实时系统。考虑到正确的返回结果在视觉上存在一定的一致性,本文提出利用K-means聚类算法对融合后的结果进行重排序,进一步提高了整个视频检索系统的检索效果。最后,在基于概念检测的视频检索中,本文所采用的概念检测方法与如今普遍被采用的方法相同,都是图像级的,即用来预测的低层特征都是全局性的。当图像较为复杂、包含概念较多时,概念间的特征会互相影响,降低了检测精度。本文在最后提出了基于图像分割的概念检测设想,利用已有的图像分割算法,通过大量分割结果,分析、探讨了基于图像分割的概念检测方法,提出了概念检测中基于细致分割的不可行性及基于粗略区域划分的可行性,为今后进一步的研究工作确立了方向。