论文部分内容阅读
随着互联网和计算机技术的发展,每天都有海量的视频数据产生。如何对海量视频进行快速、高效地搜索成为当前信息检索领域亟待解决的问题。本文就低层视觉特征的提取、高层语义索引、基于图片示例的视频搜索、基于语义的视频搜索四个方面对基于内容的视频搜索进行了研究。主要内容如下:在低层视觉特征的提取方面,在总结现有低层视觉特征提取算法的基础上,提出采用基于Bag-of-Visual-Words的关键点投影方法对SIFT特征进行量化表达。利用TRECVID2010的IACC训练数据集对该特征的性能进行了系统的分析和评价,实验结果表明提出方法的有效性。在高层语义索引方面,提出了一种新的高层语义概念检测框架。从视频关键帧中提取颜色、边缘、纹理、关键点四类的共八种低层视觉特征,为每种特征训练SVM分类器,对各特征分类器的测试结果加权融合,得到高层语义概念检测结果。参加TRECVID2010的高层语义索引(Semantic Indexing)任务的评测结果显示,该框架的性能高于所有参赛队伍提交结果的平均值。在基于图片示例的视频搜索方面,提出了基于人脸识别、基于服饰颜色信息以及基于全局图像的三种不同的视频搜索算法。算法在TRECVID2010的基于图片示例的视频搜索(Instance Search)评测任务中排名第二,远高于所有参赛队伍提交结果的平均水平。在基于语义的视频搜索方面,提出一种对视频元数据和视频内容分别进行查询的视频搜索框架。采用基于文本的搜索方法对视频元数据及语音脚本信息进行搜索,然后对视频中的视觉、听觉信息进行基于内容的搜索,利用基于内容的搜索结果对基于文本的搜索结果进行重排序,得到最终的查询结果。该系统在TRECVID2010的基于语义的视频搜索(Known-item Search)评测任务中排名第二,证明了提出框架的有效性。