论文部分内容阅读
近年来钢铁行业飞速发展,国内钢材的生产和消费急剧上升。钢坯经由钢水浇铸而成,是生产钢材用品的原材料。为方便后续的钢坯管理以及质量监测,钢坯生产完成之后都会使用钢胚标识系统对每块钢坯喷印一个序列编号。为了自动化检验钢胚标识系统的喷印准确率,需要使用相应的文本检测和识别算法对编号进行识别。随着深度学习技术的发展,场景文本检测和识别领域广泛使用了深度学习技术,并取得了很多进展。文本端到端识别指的是在同一个系统中检测并识别文本。本文对一种基于深度学习的钢胚水平编号端到端识别算法进行改进,在一个现实场景下,该算法对钢胚水平编号达到了足够高的识别准确率,可以满足实际工业应用的需要。本文针对一个钢胚水平编号文本识别数据集,以提升算法识别准确率为目标,对基于深度学习的场景文本端到端识别算法Mask TextSpotter v3的文本识别部分提出了三个改进。为了减少推理时间,第一个改进移除了空间注意力模块并提出了一种使用mask head来输出文本的后处理方法。为了探究空间注意力模块在水平编号识别任务中的潜力,第二个和第三个改进保留了空间注意力模块并对其进行了一些改进。第二个改进是从原来的二维注意力机制中提取一维注意力信息,它对于水平文本识别是更合适的。第三个改进是在Bahdanau attention中不考虑上一个输出对当前输出的影响,因为编号字符之间是相互独立的。本文所做的改进不在于设计或堆叠新的带有可学习参数的层,而是尝试使用网络已经学习到的、但被忽略了的信息来进行预测(第一个改进),并基于已有的网络结构适当添加先验信息(第二个和第三个改进)来引导网络的学习,所以不会增加模型的参数量和运行时间。实验结果表明本文提出的改进是有效的,相比于原始的Mask TextSpotter v3算法的验证集准确率97.39%,本文最佳的改进模型的验证集准确率达到99.76%。高度的准确率使该算法部署到实际的工业应用成为可能。在未来,可以进一步实验验证本文提出的改进在更多的水平文本识别数据集上的可行性和泛化能力。