论文部分内容阅读
深度学习是机器学习领域一个全新的研究方向,其目的是建立多层神经网络,以期能够模仿人脑的机制来分析和解释图像,音频和文本等数据。它通过组合浅层特征形成更加抽象的高层特征,以发现数据的分布式特征表示。图像识别是计算机视觉领域最重要也是最困难的问题之一,提高图像识别的准确率对于自主式机器人的普及具有决定性的意义。深度学习在图像识别领域的成功应用进一步推动了计算机视觉的发展。基于RGB图像或者灰度图像的图像识别,虽然也取得了一定的研究成果,但是由于RGB图像和灰度图像包含信息的局限性,已经很难满足当代图像识别应用中对准确率的高要求。采用新一代传感技术的RGB-D相机(如Kinect相机)能够同时记录高分辨率的RGB图像和深度图像。RGB图像包含物体的表面颜色信息和纹理信息,深度图像包含物体的空间形状信息,RGB图像和深度图像对彼此都是一种有效的补充。如何利用深度学习技术有效的结合RGB图像和深度图像来提高物体的识别准确率成为了深度学习领域的一个新的研究热点。在本文中,我们首先提出了一个由K稀疏自编码算法和空间金字塔最大池化算法组成的深度学习模型,K稀疏自编码算法提取RGB-D图像的浅层特征,然后交由空间金字塔最大池化算法提取更抽象的高层特征。实验结果表明,此算法提取到了有区别力的特征,提高了物体的分类准确率。然后,我们提出了基于稀疏自编码算法改进的多模态稀疏自编码算法和一个新的深度学习模型,新的算法有效的完成了RGB特征和深度特征在原始图像层的融合,实验结果表明有效的融合RGB特征和深度特征比简单的连接特征更能发挥出RGB-D图像的优势,RGB-D物体的识别准确率进一步得到了提高。最后,我们首先单独的提取了多种RGB-D图像的特征,然后在决策层采用静态线性组合的方式完成了多种特征在决策层的融合。研究结果表明,在决策层对RGB特征和深度特征进行融合,也是一种结合RGB图像和深度图像的有效手段,能充分的发挥两种图像各自的优势,提高RGB-D物体的识别准确率。