基于深度学习的电子商务图片文本检测与识别

来源 :武汉邮电科学研究院 | 被引量 : 0次 | 上传用户:YU168
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
电子商务自从1999年在中国出现以来,发展迅速。到2017年年底,中国电子商务市场交易额高达29.16万亿元,其中网络零售市场交易规模达到了7万亿,占据全球网售份额的50%。中国已经成为电子商务规模最大、发展最快的国家之一。人们可以通过移动终端设备进行几步简单操作,就可以在电商平台中购买自己需要的商品。传统的电子商务管理方式局限于文字,主要为屏蔽以及关键字过滤等文本处理的方法,而如今电商平台越来越多地采用图片的方式展示信息,这为电子商务的管理带来了技术上的挑战。因此,自动读取商品信息图片中的文本信息成了热点问题。在文本检测方面,本文实现了一种基于FCN的多方向文本检测模型,该方法先通过ResNet50提取输入图像的特征,然后将ResNet50得到的每一层不同尺寸的特征图进行特征融合,对特征融合后的特征图进行回归和分类的操作,去除候选区域的提取、过滤和融合等步骤,提高模型的效率。利用改进后的NMS将预测的文本框合并,得到最终的检测结果。同时,为解决非平衡数据的问题以及加快模型的收敛,模型引入了DiceLoss和实例间平衡的交叉熵损失相结合的损失函数。在文本识别方面,本文实现了一种基于序列的文本识别的模型。该方法包含了四个模块:DenseNet的特征提取层、空间变换层、双向LSTM的序列学习层和基于连接时序分类模型的转录层。在文本识别任务中,训练数据对模型有着重大的作用,本文首先对数据进行增强,从而增加模型鲁棒性。为了能提取更多的特征信息,模型采用了密集网络Dense Net作为特征提取层的卷积神经网络。通过空间变换网络对数据进行空间变换和对齐,以解决扭曲和倾斜文本的问题,然后利用BLSTM对提取的特征进行处理。最后,针对图像中文本长度不一和文本不易分割的问题,借鉴了语音识别中常用的联结时间分类模型,将输出预测转录成最终结果。
其他文献
近年来随着硬件计算能力的不断提升以及计算机视觉技术的不断突破,计算机视觉技术在嵌入式设备中获得了越来越广泛的应用。以大疆公司组织主办的RoboMaster机甲大师赛为背景,
在倡导人本理念、尊重学生主体地位、强调互动合作以及高校权力主体多元的背景下,传统思想政治教育模式已经不能有效适应研究生思想政治发展的实际。以尊重个体价值,强调多元
近年来围绕“双相构成、功能互补”的氢分离合金设计原则,新型Nb基氢分离合金的开发成为了研究重点。其中,Nb-Ti-Ni 三元氢分离合金具有良好的氢渗透性能与较强的抗氢脆性能,
随着我国铁路事业持续向好发展,安全稳定运行是保障各方面快速有序推进的基础,作为铁路常用材料的U75V钢,更是基础中的基础。本文综合U75V钢的化学成分,力学性能,显微组织等
目前高电压输电线路的定期巡检主要以人工巡检为主,要求工作人员巡线目测检查甚至需要攀登铁塔进行检查,效率低且不安全。伴随着数字图像技术与无人机技术的迅速发展,电网公
目前对于截取飞机短波无线电通信音频,识别飞机类型的工作主要是通过人工侦听来识别声音信号中关于飞机发动机的声音以此来推断飞机的类型。但是这种通过人耳进行识别的方法
在科学领域,随着各类精密仪器的广泛应用和科学计算时模拟生成的数据越来越多,科研人员需要分析和处理的数据也越来越多。数据规模之大使得传统的串行计算方法无法在研究人员
随着生活水平的提高,人们越发重视自身的外表,很多人会使用化妆的方式来改善自己的外表。但是,现有人脸识别和人脸验证算法多是基于面部特征信息,由于化妆的原因,面部特征信
ST12钢具有良好的韧性,强度较高,但是耐腐蚀性较差。由于其腐蚀性的问题而阻碍了其广泛的实际生产运用。材料的失效主要是由于其表面的耐腐蚀性差,由表面逐渐向基体内部腐蚀
近年来,食品安全问题时有发生,从“瘦肉精”、“毒馒头”事件到“三聚氰胺”“地沟油”、“非洲猪瘟”事件,每一次食品安全事件都牵动着数亿百姓的心,也成为了人们所热议的话