论文部分内容阅读
基于内容的多媒体信息检索是当今多媒体分析和处理领域的一个重要研究方向。它通过计算用户提交的查询实例与数据库中实例的内容相似度,对数据库中的实例进行自动排序,从而使用户能快速查找出感兴趣的信息。传统的多媒体信息检索技术主要以文本关键词为基础,利用图像和音视频数据的文本标注信息来进行查询检索。这种以文本为主的检索模式有明显的不足:首先,由于”语义鸿沟”的存在,无法在文本关键词的高层语义和媒体信息处理中提取的底层特征之间建立有效关联,使得这种检索模式对多媒体内容的分析与理解存在歧义性。其次,在大规模多媒体数据库中,多媒体信息的文本标注信息的获取需要耗费大量的人力和时间。因此,基于多媒体内容的信息检索技术得到了广泛的关注和研究。
本文对基于内容的多媒体信息检索技术进行了深入分析,研究并探索了当前存在的若干难点问题:详细研究了多媒体信息的特征描述,对图像特征构建了鲁棒的特征子空间模型,同时设计了基于音视频特征的词袋模型检索框架并对音视频两种信息尝试了融合;创建了一致性词表结构实现多音频特征的有效融合和快速索引;提出新颖的视觉语义概念检测模块并实现了文本信息与视觉信息的语义关联;探索了基于多源信息的排序模型的目标函数学习等等。本文的主要工作和贡献如下:
·针对目前图像特征描述和数据建模存在的问题,结合传统的稀疏编码理论,提出了一种基于关键编码学习(Key-coding Learning)的地形学子空间模型(Topographic Subspace Model),可以有效地对图像进行具有判别力的稀疏描述。关键编码学习根据样本的标记分布被归为归纳迁移式学习方法,使用海量未标记辅助样本来解决机器学习中有标记训练样本不足的问题,辅助样本与训练样本不需要满足独立同分布条件;通过对未标记辅助样本构建地形学子空间模型,有效地对样本数据的分布进行准确建模:在地形学子空间中,对每幅图像提取的大量局部特征描述子进行关键编码学习,最终对每幅图像生成一组任意维的稀疏特征向量,这组稀疏特征向量兼具了计算快速和判别力强的优点。
·为了加强音视频特征描述和提高检索效率,本文提出了一个基于词袋模型的音视频检索框架。区别于传统的词袋模型,对视觉信息的检索构建了基于语义的视觉概念词袋模型(Bag-of-visual-concept-words Model)。该模型通过检测视频镜头中的视觉语义概念,对视频在时间序列上按照镜头构建视频语义关键词的词袋模型,有效地克服了传统词袋模型的”语义鸿沟”问题;在音频信息检索中本文提出了基于音
频关键词的词袋模型(Bag-of-audio-words Model),并基于多个音频特征提出了一致性词表(Coherency Vocabulary)索引结构,有效地对多种音频特征进行融合并实现快速检索。在词袋模型的框架下,不同的后融合策略被用来实现视频和音频信息的融合
·通过基于内容的多媒体信息检索技术,本文设计并实现了一个基于网络视频的问答系统,通过网络视频来回答用户提出的文本问题。该系统集成了多个新颖模块,包括基于AdaBoost和Z-grid训练算法的视觉概念检测模块、多模态的复制视频检测(Video Copy Detection)模块、基于多源信息和Gradient Boosting的排序模块等。另外,为了方便用户快速友好地浏览视频答案,我们还设计了两种友好的用户界面。