论文部分内容阅读
面对网络视频数据的爆炸式增长,人们迫切需要研究基于内容的视频检索技术。然而,视频的内在语义即人们对视频数据的理解与其表现形式即人们提取的二进制底层特征之间存在语义鸿沟(Semantic Gap),用户的语义查询很难用底层特征表示,导致现有的基于物理内容的检索方法很难满足用户的真正需要。因此,研究人员提出在用户查询和视频底层特征表示之间引入中间语义层,实现基于语义内容的视频检索。如何自动建立一个合理的中间语义层,有效连接高层语义描述和视频底层特征表示,缩小语义鸿沟,是一直以来困扰科研人员的技术难点和当前的研究热点。
本文将概率主题模型应用到视频检索中,通过LDA(Latent DirichletAllocation)模型从底层特征描述中提取隐含语义,同时自顶向下将用户查询映射到人工定义的语义概念(本文称之为显性语义概念),提出了一种自顶向下和自底向上分别建立中间语义层表示,以缩小用户查询和底层特征之间语义鸿沟的语义视频检索方案。该方案包含一个最优主题模型自动选择算法,一个融合领域知识的多层LDA检索模型,以及一个融合隐含语义与显性语义的视频检索框架。本论文的主要创新点包括:
1.提出了一个基于密度的最优主题模型自动选择算法。
在概率主题模型中,主题数决定了模型提取的隐含语义结构以及模型的性能。而目前根据经验值获取最优主题数的方法不能找到主题数与模型性能之间的本质联系。本文通过理论证明和实验验证,提出当主题之间相似度最小时模型最优的定理,并以此为理论根据,实现了一个基于密度的自适应最优模型选择算法。实验证明该方法可以在不需要人工调试主题数目的情况下,用相对少的迭代,自动找到最优的主题结构。
2.提出了一个结合领域知识的两层概率主题模型检索算法。
为了提高概率主题模型准确描述数据集合的能力,本文提出了一个结合领域知识的两层概率主题模型检索算法。通过HowNet获取新闻视频中预定义语义类的先验知识,根据该先验知识对模型学习过程中的参数进行初始化,引导模型的主题结构提取,同时针对很多概率主题模型结构不能描述主题之间相关性的问题,通过分层消除主题之间的相关性,以满足模型最优的条件,提高检索精度。
3.提出了一个隐含语义与显性语义相结合的语义视频检索框架。
目前基于显性语义概念的视频检索需要人工定义一个有限的概念集,由于该概念集无法覆盖整个语义空间,在实际检索过程中会出现零概率映射和不可扩展等问题。为了保证系统的平均检索精度,提出了一个隐含语义与显性语义相结合的语义视频检索框架。在此框架下,通过LDA模型从底层视觉特征描述中自动提取隐含语义表示,并提出了一种统计与规则相结合的语义概念映射方法。该框架在TRECVID2007年自动检索评测任务中得到应用,提交的结果在19个参评单位中排名第二。
本论文将隐含语义与显性语义统一在一个框架下,缩小用户查询与底层特征之间的语义鸿沟,是对语义视频检索进行的有益探索,研究成果对于基于语义的视频检索研究具有很重要的参考价值。