论文部分内容阅读
目标检测是计算机视觉领域中一个非常重要、活跃的研究课题,同时也是一项应用广泛的技术,例如智能导航、航空航天、无人驾驶、无人商店等。随着最近几年深度学习的发展,目标识别无论是在理论研究方面还是应用开发方面,都获得了飞速的发展。但目标识别的准确率依然受到目标小、目标数量多、遮挡、样本数量等因素干扰。因此,如何克服这些因素的负面影响,提高识别率和识别速度是目标识别研究者们面临的巨大挑战。本文提出了一种密集连接的残差网络。Faster R-CNN的基础网络用来提取输入图片的基础特征,随后用于目标的分类和定位,由于卷积网络随着网络层数的增加,提取的特征越来越抽象,不利于目标的定位。残差网络常用于Faster R-CNN框架的基础网络,残差网络的每一个块都能提取到一个特征图,且抽象级别依此增加。为了利用残差网络的每一个特征图,将残差网络的每一个块相互连接起来,连接的方式为:每一个块的输入是它前面所有块的输出,而每一个块的输出都会传递给它后面的块。通过这样的连接方式,每一个块都能直接从损失函数获得梯度,从第一个块获得输入,这种连接方式进一步减轻了梯度消失的问题。同时,由于对特征进行了充分的混合,对于分类问题,分类器可以利用到所有的特征来进行分类,使得分类效果更好,而对于目标检测问题,特征中包含了位置信息,使得目标的定位更加精确。将Faster R-CNN的基础网络替换为密集连接残差网络,可以增加Faster R-CNN的性能。本文在分类数据集CIFAR-10、CIFAR-100上对本文提出的网络结构进行了测试,该网络结构取得了非常好的成绩,同时改进的Faster R-CNN算法在VOC2007数据集上也有取得了不错的成绩。本文将改进的Faster R-CNN目标检测框架应用到快消品识别系统中。目前市场中存在大量品牌的啤酒,啤酒厂家每天都需要对市场上啤酒的销售情况进行分析统计以做出决策。以前的人工方式不仅容易出错而且非常耗时。快消品识别系统能够自动的识别图片中的啤酒并给出每个品牌啤酒的数量。该系统采用了模糊判断和倾斜判断的算法来对图片进行预处理,采用了多模型融合的方法来提高识别准确率。在货架场景中训练出了单罐模型和连包模型,在地堆场景中训练了大标签模型和小标签模型。在识别后处理中对330ML和500ML两种型号啤酒进行了误识别自动纠正。在Faster R-CNN训练阶段,对anchor的生成做了特殊的设置,根据啤酒瓶的宽高比和大小设定anchor的参数。在预测阶段,使用了Tensorflow Serving进行模型管理,使用Flask框架提供WebService服务,整个系统可以分布式运行。