论文部分内容阅读
当今社会,智能设备正以前所未有的速度进行普及,日渐完善的互联网和移动网络将来自全世界的信息汇总和连接,人们从信息的接受者逐渐变成了信息的创造者和传播者。视频作为一种信息的常见载体,融合了图像、时序、音频等多种特征,具有直观生动的特点,被广泛地应用。然而视频中所包含的复杂的语义层级信息对高效的管理和准确的检索提出了更为严苛的挑战。在视频人工标注过于昂贵的情况下,为了从视频内容中直接读取出其中包含的物体、人物、场景等语义层概念,发展出了基于内容的视频概念检测技术。然而,当前的视频概念检测技术尚且面临着种种困难,还无法很好地在实际中得到应用。比如训练库与测试库不同领域之间广泛存在的样本分布差异导致检测器的性能下降、找寻视频中多种特征之间灵活高效的融合方式、低层特征与高层特征之间存在的“语义鸿沟”等问题。本文以上述三方面中的研究难点为出发点,对视频概念检测中的特征层领域自适应问题、多特征融合中的领域自适应问题以及视频概念间的语义关联进行了探讨和创新,主要取得的成果如下:(1)针对目前特征层的不同领域间样本分布差异的问题,本文基于Adaboost提出了领域自适应boosting算法(DAB)。它主要解决的是当前TrAdaBoost算法中存在的目标领域(测试库)与源领域(训练库)数据分配不合理的问题,分为两个主要步骤:首先对源领域的数据在特征空间内进行无监督分类;然后在迭代训练中,将目标领域验证集中选择出的样本映射到已分类的源领域特征空间中,匹配出一定数量的源领域样本。最后,两个领域选择出的数据共同进行弱分类器的训练。作为TrAdaBoost算法的一种改进型算法,DAB算法能够很好地解决大规模领域定义和小尺寸验证集的情况。DAB算法有两个主要优点:在训练中能够突出目标领域数据的重要性,在实验中获得了更好性能表现;由于不需要对源领域的数据进行判别和权值计算,因而减小了计算量。(2)针对当前多特征融合研究中的领域自适应能力缺失的问题,本文提出了领域自适应的线性融合方法(DALC).它是一种后期融合方法,基于多特征分类器的输出分值进行融合。该算法以线性融合模型(LC)为基础,通过分析源领域和目标领域之间的差异,来自适应更新LC模型的融合参数。它的原理是找寻领域样本与LC融合参数之间的关联关系,利用源领域中已经建立的关联关系去指导目标领域的关联关系,通过优化搜索来找寻更新后的融合参数,使得两个领域中存在的关联关系距离最小。DALC模型是一种通用的非监督式方法,不需要训练,有着很快的自适应速度。与当前一些没有考虑领域自适应的多特征融合方法相比,有着更好的融合性能。(3)针对视频概念间的语义关联问题,本文提出了基于节点平衡(NE)的概念关联模型,它与DALC模型共同构成了一个两级语义模型。该方法以物理模型为基础,将概念之间的关联性用物理性的引力和斥力进行建模,而将一个个镜头-概念对看作是物理节点,它们的分值则是它们所处的位置。对不同类别的概念关联方式,可以定义不同种类的力,它们可以共同作用在一个节点之上,从而达到使用多种概念关联共同作用的结果。与现有的方法相比,它可以使用多种概念间的关联关系同时进行构建复杂的语义关系,文中使用了三种关联:共存关联、层级关联和时序关联。它是一种启发式模型,对概念的关联过程以模拟人的先验知识为主导,因此具有直观性的特点。此外,它有着简洁的关联方程,求解过程快速;并且可以根据先验知识或训练数据的有无,应用监督式或无监督式的关联参数。