论文部分内容阅读
理解室内场景下物体的类别、位置及姿态是机器人抓取、虚拟现实和增强现实中的人机交互任务的关键先决条件。目前很多算法都是基于场景并不复杂、物体之间遮挡很少甚至没有遮挡、只能处理场景中的单个目标等,不过真实的姿态估计场景中,多为物体摆放杂乱无章、物体间存在被遮挡或自遮挡等复杂场景,所以复杂场景对于姿态估计算法的鲁棒性和泛化性仍然是具有挑战性的研究问题。本文围绕此问题从以下几个方面进行研究:1.对于室内物体间存在许多遮挡问题,本文改进堆栈式去噪自编码器,提出一种基于增强自编码器的室内遮挡目标图像重建方法。算法首先对输入的图像增加随机噪声(如高斯噪声、随机Mask遮挡等);然后将增加过噪声的图像输入给增强自编码器,经过编码、解码后,输出一个与原始图像相同维度的向量;最后将向量转换成与原始输入图像尺寸相同的图像,且此图像是不含遮挡的图像。从重建LINEMOD数据集的图像前后效果对比,表明增强自编码器在遮挡目标重建上是可行的方法,可以很容易与其他网络融合。2.对于很多算法无法处理复杂场景下多目标检测问题,首先改进原始LINEMOD单目标数据集为多目标数据集,然后使用本文改进后的Faster R-CNN网络进行复杂场景多目标实验。对Faster R-CNN改进的内容包括使用网络层数更深的ResNet101作为提取网络来提高网络特征提取能力,参考Mask R-CNN的ROI Align下采样方法来提高下采样精度,降低原始锚点框的尺寸以更适用于小目标物体。修改过的Faster R-CNN对于多目标LINEMOD数据集目标检测有非常好的性能。不过因为数据集中普遍存在大量相互遮挡问题,这对进一步研究会有一定影响。3.对于姿态估计问题,本文使用PnP算法根据物体关键点求出物体6D旋转和6D平移的方法。当从图像中预测物体关键点时,不得不考虑由于目标存在遮挡而无法精确预测出物体关键点的问题,提出首先使用上面的增强自动编码器重建Faster R-CNN输出的目标物体感兴趣区域,然后通过在增强自编码器后面添加全连接层的方法,回归出物体关键点。经过试验证明,即使存在目标被遮挡的问题,算法也能很精确回归出物体关键点。最后利用PnP算法求出物体的6D旋转和6D平移,从而求出物体姿态。相比于其他姿态估计的算法,本采用的方法更加精确,即使图像中目标被遮挡,仍具有很好的性能。4.虽然上面的方法可以精确估计物体姿态,不过算法是非端到端的,所以本文参考强化学习的奖励-惩罚策略,探索研究基于强化学习的端到端室内物体姿态估计方法。算法根据Faster R-CNN输出的每一类物体都有一个概率,且不同概率会影响增强自编码器输出的姿态结果,所以可以通过姿态估计结果与目标检测输出的概率求出概率期望,来进行反向传播,实现端到端的姿态估计算法。