论文部分内容阅读
物体识别是机器视觉领域重要的研究方向,其涉及到数学、机器学习、图像处理和模式识别等多学科的知识。随着社会的发展和机器视觉技术的成熟,机器视觉在服务机器人领域的应用不断扩展,推动了国家工业战略2025的进程。基于RGB-D信息的物体识别算法是服务机器人系统重要的组成部分,在智能驾驶、无人机和人型机器人中都有广泛的应用。因此,物体识别在机器视觉领域的研究具有重要的理论意义和实践价值。基于RGB-D(Red:红色通道,Green:绿色通道,Blue:蓝色通道和Depth:深度通道)信息的物体识别是机器视觉领域的重要研究课题。物体识别算法一般包括特征提取和分类器设计两个部分,其中如何设计出更好的特征提取算法一直是人们研究的热点。本文提出了两种特征提取算法,一种是基于多通道字典的物体识别算法,另一种是结合SIFT和稀疏编码的物体识别算法,主要内容包括:(1)提出了一种基于多通道字典的物体识别算法(Multi-Channel Feature Dictionaries for RGB-D Object Recognition:MCFD)。在基于RGB-D信息物体识别领域,传统的特征学习算法通常将RGB三通道颜色特征作为一个整体进行研究。在对RGB三通道颜色信息进行采用稀疏编码算法提取特征时,会得到一个字典。而基于多通道的字典相比较单通道字典则可以提取出更丰富的图像块特征信息,可以更加准确的表示图像块的特征。每张图像划分为若干块,每块划分为若干单元,每个单元包含若干像素点。在提取特征时,首先使用字典解出图像中每个像素的稀疏编码,再采用最大池化算法得到单元特征。块特征是将其所包含的所有单元特征进行链接得到的。块特征是第一层特征,基于块特征可以得到第二层字典与其稀疏编码。将金字塔最大池化分别用于块特征和其对应的稀疏编码可以得到图像的第一层特征表示和第二层特征表示。实验结果表明,基于多通道字典的物体识别算法比单字典上物体识别准确率高,第二层特征比第一层特征准确率高。(2)提出了一种结合SIFT和稀疏编码的物体特征识别算法(Combining SIFT and Sparse Coding for Object Recognition:CSSC)。很多稀疏编码算法主要基于图像块的颜色、空间和形状信息进行特征学习,而忽略了梯度方向信息。SIFT特征可以提取图像块的梯度方向直方图统计信息,具有尺度旋转不变性。从图像块所提取的SIFT特征可以增加基于稀疏编码的图像块梯度方向信息。每张图像都划分为若干有重叠的块,然后从灰度图像块中提取SIFT特征并求出对应的字典与稀疏编码。使用稀疏编码直接从颜色与深度图像中求出块特征与基于块特征的稀疏编码。将金字塔池化算法分别用于基于SIFT的稀疏编码、块特征和基于块特征的稀疏编码得到三种图像特征。最后将这三种图像特征链接得到物体特征。通过实验,可以证明这种特征表示方法的有效性。