论文部分内容阅读
随着互联网的飞速发展,越来越多的人们开始习惯于在电子商务平台上购物。商品信息图片这种简洁生动而又丰富准确的视觉信息给消费者带来便利的同时也给电子商务网站的管理人员带来了技术方面的挑战。由于商品信息图片中文字的表现形式为受到字符多样性、背景纹理等条件干扰的光学字符,从而不能被计算机直接搜索和处理,这就造成了一部分不良商家通过把违规商品信息以图片的形式面向消费者展示同时还能规避网络监管的事情时有发生。因此,研究如何从这些电商图像中准确提取文字信息具有重要实用价值。自动从商品信息图片中提取文本信息将有助于电子商务企业在大数据时代提高商品的推荐效率、提升售后保障和信息化监管水平。本文主要针对电商图片中的字符定位和识别算法进行了研究,在一系列关于图像处理、文字特征提取、文字定位等算法的研究基础上,抛弃了传统“边缘检测+腐蚀膨胀”的特征提取方法,模拟肉眼的视觉机理提出了通过灰度聚类、图层分解、去噪等步骤进行字符定位的方法,同时进一步结合邻近搜索和统计切割技术针对汉字的几何特征进行了字符切割,最后采用了卷积神经网络模型,通过多层卷积神经网络,构建了单字的识别模型,成功剔除了图片的背景区域,实现了对于电商图片中文本信息的提取与识别。在模型结构方面,参考了一个通过卷积神经网络对MNIST手写数字进行识别的模型,通过增加卷积核和隐藏节点的数目,改变权重等复杂化调整使模型结构适用于汉字,在激活函数方面,选取了ReLU函数,极大地提升了模型效果,在防止过拟合方面,使用了深度学习网络中最常用的Dropout方式,在训练模型的时候,对模型最终的损失函数进行了调整,使得模型的预测性能得到了很大的提升。结果表明本文提出的方法在实际应用中有着良好的效果。此外,本文还针对汉字图像的识别建立了包括宋体、楷体、黑体、数字、字母等印刷体在内的共计35种字体,3062字的数据库,针对无遮挡的印刷体汉字,提出了一种深度卷积神经网络模型,该模型主要包括2个卷积层、2个池化层、1个全连接层、1个隐藏层和1个Softmax回归层组成,通过综合运用多种创新性训练方法,有效提高了网络的识别效果和泛化能力,在测试数据集中对样本识别率达到97.5%。