论文部分内容阅读
视频是集图像、声音、文字等为一体的综合性媒体。随着互联网技术的发展和网络带宽的提升,网络视频数据量呈爆炸式增长,从浩瀚的视频数据库中检索感兴趣的资源,传统的基于关键词的数据库检索方法越来越难以实现。其原因在于许多情况下很难用一个或多个关键词来充分描述视频中的丰富信息,而且这种描述也存在很大的主观性。另外,用户很难将其需求清晰的表达出来。所以人们希望只要给出例子或特征描述,系统就能自动地找到所需的视频片断。于是基于内容的视频检索技术应运而生,并成为一个新的研究领域。
视频语义特征提取是基于内容的视频检索中的一个关键环节。其任务就是将二进制的底层特征映射到语义特征,实现对视频的语义标注。但是,底层特征和用户需求的语义特征之间存在着“语义鸿沟”。通过在底层特征和用户需求之间增加一个语义概念层可以填补上述鸿沟。定义一些基本的语义概念,比如场景类概念(室内/室外、水景、城市等)、物体类概念(如汽车、建筑、动物等)等,然后分别建立从底层特征到概念以及从概念到用户需求的两层映射,以提高视频检索的性能。其中,建立底层特征到高层特征的映射过程称为高层特征提取,又称为语义概念检测。
本文针对视频语义概念检测中的问题,研究如何使用自动语音识别ASR(Automatic Speech Recognition)文本对视频语义概念进行检测和融合。本文主要完成了三部分工作:
1.设计并实现了ASR文本提取高层特征的系统,对ASR视频文本进行提取关键词等处理之后通过支持向量机(SVM)进行训练和测试,建立了高层语义概念检测器。同时,提出了一种新的基于WordNet扩展的ASR文本分类方法,首次将WordNet用于扩展文本关键字集合,选择对文本关键字集中的名词使用了WordNet扩展,具体通过同义关系(Synonym)扩展、下义关系(Hyponym)扩展和上义关系(Hypernym)扩展,提高了分类的准确率。
2.由于通过ASR文本特征来提取高层特征的过程,也可以认为是一种文本分类问题,所以除了SVM之外,将两种主流文本分类方法Naive Bayes和K-NN算法也应用到了系统当中,对ASR文本进行分类,分类结果的每一个类别即对应一个提取出的高层特征。我们对两种方法的性能做了测试,并同支持向量机(SVM)方法做了比较,研究结果表明,K-NN算法检测结果精度最高,而SVM方法算法执行速度最高。
3.为了得到更好的语义概念检测结果,一方面在得到基于ASR文本提取的高层特征结果之后,将其同视觉、音频等多模态特征融合,研究了OWA、Adaboost等基于多模态的语义概念融合方法;另一方面,对概念相关性也做了研究,并研究了基于上下文的概念融合(Context Based Concept fusion)和基于伪相关反馈的重排序(Pseudo Relevant Feedback-Based Re-ranking)等算法。
整个实验平台基于TRECVID开发。TRECVID是由美国国家标准技术研究院(NIST)发起的一个视频检索国际权威评测。鉴于语义概念检测的重要性,TRECVID将其作为一个专门的高层特征提取(High Level Feature Extraction)任务,每年都进行评测。分别在TRECVID2007的数据集和04-06年的新闻视频数据集上对提出的改进文本分类算法和多种融合方法进行了实验。
实验结果说明了通过多模态特征融合、概念相关性融合等方法,文本对视频语义概念检测有着重要辅助的作用,并且验证了作者提出的基于WordNet扩展的改进ASR文本分类方法能提高语义概念检测性能。