论文部分内容阅读
随着网络和多媒体技术的发展,各种图像和视频数据呈爆炸式的速度增长。视频语义概念检测是实现从底层特征到语义概念映射的机器学习问题。在视频语义概念检测中,新视频数据的不断涌现导致训练集和测试集数据分布不一致,原有训练集上建立的算法和模型无法适用于新增数据。跨域迁移学习是在分布不同但有关联的学习任务或数据域进行知识迁移的机器学习问题,其目的是较快地利用以往所学知识对新问题进行学习,能有效地解决概念检测中数据分布不一致的学习问题。论文针对概念检测过程的训练样本选择、模型学习和概念测试等关键环节中存在的问题,研究基于跨域迁移学习的语义概念检测算法,以提高新数据域上语义概念检测性能。在TRECVID2005和TRECIVD2007的大规模数据集上,验证了论文方法的有效性。论文的主要创新点有:
(1)基于概念关系的跨域迁移学习方法
为扩充目标域训练集,通常基于图像特征选择源域样本,但选择出的样本缺乏多样性。针对这一问题,提出了基于概念关系的跨域迁移学习方法。鉴于协同训练(Co-Training)对不同的特征子空间协同学习的优势,论文基于概念关系特征,利用协同训练从源域中选择样本,以增加目标域训练样本的多样性。实验结果表明,该方法能有效提高跨域迁移性能。
(2)基于多图优化的多模态跨域迁移学习方法
针对跨域迁移的模型学习过程没有利用多模态特性问题,提出了基于多图优化的多模态跨域迁移学习方法。由于图模型能有效描述多模态特性,论文采用基于多图优化的半监督学习方法,在目标域中引入源域的多模态跨域迁移信息。在此基础上,针对图模型处理小批量新增数据的局限性,利用最近一轮优化结果,提出了一种增量扩展方法,避免了图模型的重新优化问题,从而降低了算法时间复杂度。实验结果验证了该方法的有效性。
(3)基于伪相关反馈的跨域迁移学习方法
针对训练集与测试集分布不一致加剧“语义鸿沟”阿题,提出了基于伪相关反馈的跨域迁移学习方法。鉴于伪相关反馈在缩小语义鸿沟方面的优势,论文对现有模型在测试数据集中的多特征综合判断结果,采用伪相关反馈自动选取伪样例;在此基础上,采用Tradaboost方法,将伪样例融入到跨域迁移学习中,以充分利用现有模型的语义信息。实验结果表明,该方法显著提高了跨域迁移学习的性能。