论文部分内容阅读
随着我国对外贸易的日益繁荣,海关关税部门在报关单查验方面面临响应速度快、关税风险把控要求高等诸多挑战。申报随附单据作为关税查验和风险把控的重要数据来源之一,目前在海关关税部门主要采用人工调阅的方式进行;由于人工处理随附单据效率较低、商品信息可关联程度不够,亟需研究高效的随附单据自动识别与处理系统,以降低查验成本、进而为自动化通关打下基础。本文对海关申报中随附单据中表格的检测识别和语义提取进行了系统研究。由于随附单据主要以形式多变、表达多样的扫描表格图像方式呈现,本文从随附单据预处理、图像中的表格区域检测、随附单据表格语义分析和表格中中文字符识别这几个环节进行了深入探索。主要工作如下:1.针对随附单据中存在的印章干扰、扫描过程中的方向多变等问题,提出了随附单据中的印章消除、基于直线检测的倾斜校正、改变图像清晰度等预处理步骤,提高了随附单据图像文档的质量;2.针对随附单据图像中表格样式和区域多变的问题,提出了一种基于文字行相似度匹配的表格区域检测方法。这是由于无论表格如何表达,表格区域内必然包含若干商品信息,而每件商品信息会对应表格中的一个文本行。受此启发,本文首先根据随附单据中的几何特征提取,确定第一件商品信息所对应的文字行;接下来,以该行作为文字行模型,通过与其它文字行之间的相似度计算,找出所有相似的文字行。由于表格区域内相邻文字行之间的间隔是相对固定的,本文根据这一几何特性进一步筛选出属于表格区域的文字行,筛选出的文字行即构成了随附单据中待分析的表格区域。3.海关随附单据图像中存在原产国、买方、卖方、成交方式等关键信息,这些关键信息通常以“属性”和“属性值”的键值对形式出现;但是,这些信息键值对往往无规律地分布在整张单据图像上,且键值对中“属性”和“属性值”的结构也无一定规律可循,甚至可能出现嵌套型的键值对。针对随附单据表格语义表达多样性的难题,本文提出了一种基于解释描述语言的信息提取方法,该方法首先通过与人的交互给定这些信息的“属性”和“属性值”区域,然后通过描述语言定义、编译器词法和语法规则的检查,最后通过解析程序解析描述语言得到“属性”和“属性值”的对应关系。本文根据单据图像中信息的特点设计了语法规则,并使用BNF范式描述语法规则,采用语法分析程序Yacc和词法分析程序Lex构建了编译器。4.针对开源字符识别工具Tesseract OCR识别中文准确度不高的问题,本文收集了 50种字体,并通过几何旋转、背景变换等方法生成了 70万张训练数据,进而采用卷积神经网络模型进行训练、使用卷积神经网络模型对中文字符进行识别。基于以上技术,本文实现了一个海关随附单据识别和处理的原型系统。在实际海关随附单据数据集上的实验结果表明,本文所提出的方法可有效识别出随附单据图像中的重要信息,并可在与其它关税申报信息结合基础上,为我国海关关税风险预测和把控提供依据。