面向仓储包裹变形标签的图像校正与识别

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:dragon122
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
纸质文件数字化对于信息提取、文本内容分析和文化交流传播具有重要意义。本文针对物流仓储包裹上标签的数字化展开研究,属于特殊场景下的纸质文件数字化研究。在运输存储过程中,货物表面的标签易产生折叠、扭曲、褶皱等几何形变,同时采集人员往往手持移动设备捕捉标签图像,更是带来了采集角度不固定、光照不均匀、图像模糊等问题,使得常用的场景文本检测与识别方法难以提取标签图像中的文本信息。针对上述问题,本文面向仓储包裹变形标签的图像校正与识别展开研究,主要研究内容如下:(1)针对目前公开变形文档图像数据集较少的问题,本文构建了一个复杂变形标签图像数据集。该数据集的训练集通过深度相机Kinect V2结合Elastic Fusion算法捕捉自然场景下变形标签的三维形状,并在三维渲染软件Blender中渲染生成了大量变形标签图像及其对应的丰富的标注信息,用于图像校正网络的训练。之后对本文自建数据集训练集中的小部分合成图像和测试集中真实变形标签图像标注了文本区域坐标和文本真值,用于文本检测与识别网络的训练和测试。(2)针对复杂变形标签的图像校正问题,本文研究了现有的传统图像校正方法和基于深度学习的图像校正网络,最终采用了一种结合基于标签提取和仿射变换的传统图像校正预处理和Dewarp Net网络的图像校正方法。在原Dewarp Net网络的基础上,本文将原网络需要的裁剪输入图像的预处理步骤替换为基于标签提取和仿射变换的方法,自动对输入图像进行预处理;在Dewarp Net纹理映射子网络的损失函数中引入结构相似度(Structural Similarity,SSIM)损失项。最后,通过大量的实验,验证了本文改进后的Dewarp Net网络具有较好的图像校正性能,相较于原网络在本文数据集上多尺度结构相似性提升了0.0252,局部失真降低了1.3777。(3)针对校正后标签图像的文本检测与识别问题,本文采用了一种融合上下文感知注意力模块(Text-context-aware Attention Module,TCAM)与Mask Text Spotter v3网络的文本检测方法。之后对检测得到的多边形文本框外接最小矩形,生成掩码后,送入CRNN+CTC网络进行文本识别。实验结果表明本文提出的文本检测与识别方法能够准确检测出多方向、极端长宽比和扭曲倾斜的文本行,并有效缓解过分割长文本行和生成假正例检测框的情况。改进后的文本检测网络,相较于原网络在本文数据集上准确率提高了1.97%,综合分数F值提高了0.91%。
其他文献
随着互联网技术的快速发展,在线视频服务的用户比例逐年增加,相较于传统的电视媒介,在线流媒体以其灵活性和多元性著称,具有强劲的生命力。在流媒体传输中,成本、时延与质量往往存在着三角制约关系,需要在这三者之间寻找到一个最优平衡点,而实时性是流媒体系统中衡量传输质量的第一要素。目前主流的RTMP(Real Time Messaging Protocol)协议采用TCP(Transmission Cont
隐身目标电磁散射特性的研究在雷达目标检测与识别中具有重要的意义和应用前景。在目标表面涂敷吸波材料或使用结构型吸波材料代替原材料都可以有效减少雷达散射截面(Radar Cross Section,RCS),因此吸波材料的制备和隐身效果研究以及涂敷目标的RCS计算成为目标隐身的重要课题之一。本文基于吸波材料对隐身目标的电磁散射特性相关领域问题展开了系统的研究工作,主要工作和研究成果如下:1.设计了性能
学位
近年来,文档编写与检查在如今的信息化社会是一个相当重要的环节,文档内容与格式规范化的要求变得越来越高,尤其是政府以及学校等机构需要完成大量的规范文档撰写工作。由于文档撰写人员在编写过程中存在对文档的编制要求了解不透彻的问题,需要查阅文档的编写要求才能完成文档撰写,文档编写效率较低。因此,本文针对文档编制领域,实现了智能问答和检查文档规范性并回复相应建议的功能。本文基于信息化项目编写要求,建立了信息
近些年来,无线通信系迎来了快速的更新换代,电子设备的种类,数量都有了很大的更新发展,对系统平台的空间要求越来越高,可重构技术慢慢发展为一个无线通信领域研究的热门焦点。可重构技术在电磁超表面,天线,滤波器等领域均有很大的应用空间,能进一步优化天线与微波电路的功能使其满足多功能,集成化的要求,本文基于加载有源器件和应用液态金属,设计了多款可重构频率选择表面和可重构天线,主要内容可以分为三部分:1.设计
自动驾驶技术和新能源汽车近年来发展非常迅猛,无论从市场需求还是国家战略来看,自动驾驶技术和新能源汽车势不可挡。这使得汽车电子需求增加,而由于其特殊的应用场景,对电子器件和系统提出了更高的要求,安全问题首当其冲。芯片在汽车电子系统中发挥着举足轻重的作用,芯片的功能安全一直是研究的热点。本文设计并完成了一种基于ECC算法和奇偶校验的AXI总线保护机制。该保护机制可以直接集成在原有的AXI接口上,并且不
嵌入式视觉系统在工业检测、医疗、消费电子等领域都有重要的应用前景。但是对于不同的嵌入式软硬件平台,目前还没有一种通用的移植与应用方案。针对上述问题,论文对一种基于ARM的Linux嵌入式视觉系统应用方案开展了研究,将图像处理、目标检测、对象分类等视觉技术应用在嵌入式平台,对嵌入式技术和计算机视觉技术的持续发展均具有良好的促进作用。论文主要研究工作如下:(1)搭建了一个基于Exynos4412处理器
学位
人脸图像作为互联网时代重要的信息媒介,能够携带充分的有效信息,得益于其采集过程便捷友好,逐渐成为了主流的个体身份标识之一。根据获取人脸信息的传感器与方式的不同,人脸图像也具有多样的表现形态,通过诸如可见光摄像机、红外摄像机和人物面部素描画法等方式可得到多种模态的人脸图像。基于相同的设备或描述方式得到的人脸图像构成了同一个模态。跨模态人脸图像生成是指将输入的某种模态人脸图像转换为指定目标模态下的人脸
微波雷达生命体征感知技术将新兴的生命科学与飞速发展的微波无线通信技术相结合,极具前沿创新价值,由于具有穿透性强、探测精度高和环境适应能力极强等突出优点,是新一代生物探测及其智能分析领域的重要支撑技术,对于未来智能医疗、生物雷达、安全防护和救援等尖端技术的发展具有极其重要的作用。伴随着相控阵、微电子和片上系统技术的飞速发展,微波生命体征感知系统及芯片研究逐渐成为国内外关注的热点问题之一。因此,本文主