论文部分内容阅读
电商平台管理者需对商铺所售产品的海量商品图片进行信息抽取,进而实现风险管控,因此商品宣传图片文字识别是电商平台管理的技术关键。本文利用深度学习技术实现对电商商品宣传图片的文字检测与识别,为电商管理提供行之有效的技术支撑。主要研究内容如下:(1)针对CTPN(Connectionist Text Proposal Network)文字检测算法检测不同高度文字时易出现的检测框偏移问题,在CTPN的基础上,提出了融合文字高度特征的文字检测算法Hy-CTPN,该方法通过改善CTPN文字框合并机制,将文字高度信息加入文字检测框精修中。在ICDAR2013上的实验结果显示,Hy-CTPN算法的召回率为85%,F1-Measure为89%,检测时间为90ms,相比于原始CTPN,召回率提升了2%,F1-Measure提升了1%,算法平均预测时间缩短了50ms;在自制商品宣传图片检测数据集上HyCTPN也有较为优异的表现;(2)针对Hy-CTPN文字检测后出现的漏检问题,提出了一种基于卷积自动编码器特征的随机森林文字检测后验模型,该方法将深度学习中的卷积自编码特征与随机森林方法相结合。使用随机森林方法对卷积自编码特征进行融合投票,选择出最优特征区域。加入随机森林后验模型的Hy-CTPN文字检测准确率为94.9%,相比于CTPN,检测准确率提升了1.4%,相比于Hy-CTPN,检测准确率提升了1.3%;(3)针对文字检测后的文字倾斜导致文字识别准确率不高的问题,引入透视变换矫正算法;针对图像二值化算法的耗时过长问题,在Niblack算法的基础上,降低其算法时间复杂度,形成了OP-Niblack算法。最终形成了基于OP-Niblack的透视变换文字校正算法。该算法采用降低像素局部窗口计算方式的OP-Niblack算法进行二值化,采用梯度法与透视变换相结合的方法进行文字区域校正。对文字检测后的畸变图像进行校正实验,本文所提校正算法平均校正时间为1.18s,相比于近年来比较好的校正算法减少了90ms;对校正前识别准确率分别为(30%,50%),(50%,70%)的文本进行校正,校正后的平均识别准确率分别为81.7%,86.0%,加权平均识别准确率提高了1.13%;(4)针对DenseNet网络的训练过程中内存消耗过大与文字识别准确率较低问题,提出了一种基于特征图矩阵相似性DenseNet网络与CTC(Connectionist Temporal Classification)相结合的字符序列识别算法Simi-DenseNet+CTC。该方法通过结合矩阵相似性的Simi-DenseNet特征提取网络进行文字序列提取,使用CTC算法进行序列与标签的对齐。在自制商品宣传图片文字识别数据集上进行实验,准确率为86.1%,平均测试时间为0.18s,相比于DenseNet+CTC,准确率提高了0.8%,检测时间缩短了90ms,此外,在训练内存占用上,Simi-DenseNet+CTC有明显的降低。采用tensorflow框架、python语言对上述深度学习算法进行实现,并使用3个公共数据集与自制数据集进行实验验证。实验结果表明,所提算法不仅对自制商品宣传图片文字数据集有着很好的效果,在对公共数据集ICDAR2013、ICDAR2015、ICDAR2017数据集上也达到了不错的效果,具有非常好的研究与应用价值。