论文部分内容阅读
随着网络技术的进步和智能设备的普及,当今互联网上的交流已经突破了文字的局限,而更加青睐包含更多内容的数字图像和视频。因此,如何对这些图像和视频数据进行处理和分析,获知这些数据背后存在的意义,并利用这些数据优化决策的技术,是大数据时代研究的热点。为了理解这些图像和视频的语义以供进一步分析,可靠的物体检测技术具有广泛的应用需求和应用前景。同时,作为计算机视觉领域的一个重要课题,物体检测对于解决计算机视觉领域的其他问题,如语义分割(Semantic Segmentation)、物体解析(Object Parsing)等也有重要的研究意义。但是,由于数字图像中的物体受到尺度、旋转、视角、姿态、光照等因素影响,且当图像中存在的多类物体间存在互相遮挡等空间关系时,现有的算法难以正确而快速地识别图像中存在的物体。本文主要研究如何结合图像的局部特征和空间关系提高多类物体检测的准确率。首先,本文研究了基于局部特征的物体检测模型,分析了这些模型的优缺点并对比其性能。随后,本文实现了结合局部特征和空间关系的物体检测模型。该模型首先采用物体的局部特征对图像中可能存在物体的区域进行识别,随后利用预定义的空间关系建立结构化模型,并利用物体间存在的相对位置关系优化识别结果。由于图像中可能存在的物体类别,及物体间相互的空间关系种类繁多,对结构化模型进行训练和测试耗时较长,本文提出了阈值法和极大值法两种特征分离方法,将结构化模型转化为多组二值判别模型,从而克服了多物体检测的速度瓶颈。实验结果表明,分离算法可以用较小的性能损失来换取极大的速度提升。同时,采用极大值法分离的模型可引用更多的空间特征,如相对长宽比、重叠百分比等,从而提升模型的性能。现有结合局部特征和空间关系的物体检测模型大多采用预定义的空间关系来建立结构化模型。但是,这种空间关系并不准确,且难以捕捉物体间存在的丰富语义。因此,本文提出了一种采用数据驱动方式来挖掘物体之间存在的空间关系的算法。通过研究图像数据集中物体的相对分布特性,本文采用聚类的方式获得物体间相对位置的空间关系原型,并通过空间关系原型构建空间关系特征,采用结构化学习算法提升物体检测模型的性能。在常用的K-均值聚类(K-Means)的基础上,本文提出了对比聚类算法(Contrast K-Means)以更好地捕捉空间关系原型。实验结果表明,通过对比聚类获得的空间关系原型可以比K-Means聚类更好地描述物体间的空间关系。本文还研究了使用多种不同的编码算法构建的空间关系特征对检测结果的影响,并选择了最优的编码算法构建空间关系特征,提升了物体检测模型的准确率。在获得了物体间空间关系的描述后,本文研究了如何更好地利用物体间存在的空间关系。通常来说,不同类别的物体间存在的空间关系差别很大,但是,通过对数据库中物体间存在的空间关系进行统计后发现,即使是在特定的一对物体间存在的空间关系也可能有较大差异。这种差异主要是由于物体的姿态和视角发生变化而造成的。本文基于不同姿态物体间的空间关系建立了纺锤模型,并通过实验证明,考虑姿态变化的纺锤模型可以进一步地提升多物体检测的性能。