论文部分内容阅读
随着社会的发展与科技的进步,人们对机器人技术的要求已经不再是仅仅满足于简单的重复工作,而是提出了更多智能化的要求。人类80%以上信息的获得来自视觉,因此,基于视觉的场景识别与理解是使机器人认识周围环境、提高其智能化水平的关键。而特征提取是场景识别方法中的关键步骤。现有文献的场景识别方法大多采用局部特征,然而,由于局部特征多为人工定义,且提取过程中多有人为干预,因此特征中往往不能全面的包含原始图像中的隐含信息。近年来,深度学习在机器学习领域获得了广泛关注。它在原有的人工神经网络的基础上,利用逐层贪婪算法在加深网络结构的同时,最大程度的回传模型的残差,以提高模型在特征提取时的生成特性。深度学习提取到的全局特征,包含了原始图像中的隐含信息,且特征提取的过程为无监督学习,不需要大量的有标签数据,更适合于实际应用,并在手写体数字识别和物体识别领域取得了令人满意的结果。但是,现有文献中的深度学习算法多是用于处理小尺寸的图像,不适合处理大尺寸自然场景图像。本文针对机器人环境认知问题,研究基于深度学习的场景识别方法,主要内容包括: (1)提出了一种融合中心因子的卷积限制玻尔兹曼机的场景识别方法:首先,针对卷积限制玻尔兹曼机的参数训练过程存在不稳定性的问题,在卷积限制玻尔兹曼机模型的参数训练过程中引入中心因子,构建融合中心因子的卷积限制玻尔兹曼机,增强模型训练过程的稳定性;然后,为了获得更深度的模型,利用卷积限制玻尔兹曼机建立融合中心因子的深度信念网络模型;最后,利用Softmax分类器实现场景识别。实验结果表明,所提出的方法提取到的特征更加准确,并包含更多原始图像中的细节信息,在不同场景数据集上取得了更高的识别率。此外,所构建的模型利用权值共享,减小了模型参数数量,降低了运算复杂度。 (2)提出了一种基于卷积神经网络与深度玻尔兹曼机的场景识别方法:首先,利用卷积神经网络对大尺寸场景图像进行预处理,经过多层卷积神经网络模型,可以实现原始图像尺寸的缩小并获得卷积特征;然后,将预处理的结果作为深度玻尔兹曼机的可视层输入,进行特征提取;最后,利用Softmax分类器实现场景分类。相较于传统的预处理方法,卷积神经网络能够获得更好的特征信息,而深度玻尔兹曼机模型可以实现参数由上至下和由下至上的两个更新过程,因此输出层的残差可以更加准确的传递回输入层。实验结果表明,与池化预处理方法相比,利用卷积神经网络进行图像预处理,保留了更多的原始图像细节,得到的结果图像也更加清晰,我们的方法在不同场景图像数据集都得到了较高的识别率。但是,研究过程发现,卷积神经网络的计算局限于规则区域内,无法在复杂的场景图像中取得良好的效果。 (3)提出了一种基于超像素与深度玻尔兹曼机的场景识别方法:首先,利用基于简单线性迭代聚类算法对图像进行预处理,将在距离以及颜色上相似的像素点聚集,形成超像素,打破了原有预处理算法受到规则区域的限制,使得原始图像中物体轮廓更加清晰,有效处理复杂场景图像;然后,将每个超像素作为深度玻尔兹曼机的可视层节点,利用限制深度玻尔兹曼机对场景图像进行特征提取;最后,利用Softmax分类器进行特征分类,实现场景识别。实验结果表明,基于超像素的预处理方法可以提高复杂场景图像的处理效果,使得图像中的物体轮廓更加清晰,在多个室内外场景数据集的实验中,我们所提出的方法都取得了最高的识别率。 (4)基于深度学习的场景识别系统原型软件的实现:为了便于在不同数据集上实现算法的研究与结果分析,在算法研究的基础上,我们设计并实现了基于深度学习的场景识别系统原型软件。按照其工作流程,系统主要包括模型训练模块、模型测试模块和识别结果显示模块。该软件满足了场景识别中所需要的功能,可以实现对任意场景图像的识别,并可以直观显示识别结果。