海关随附单据中表格的检测识别和语义提取研究

来源 :南京大学 | 被引量 : 0次 | 上传用户：llll9909

【摘要】

：

随着我国对外贸易的日益繁荣,海关关税部门在报关单查验方面面临响应速度快、关税风险把控要求高等诸多挑战。申报随附单据作为关税查验和风险把控的重要数据来源之一,目前在

【作者】

：

吴子涵

【出处】

：

南京大学

【发表日期】

：

2004年期

【关键词】

：

海关随附单据识别倾斜校正表格区域提取卷积神经网络

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着我国对外贸易的日益繁荣,海关关税部门在报关单查验方面面临响应速度快、关税风险把控要求高等诸多挑战。申报随附单据作为关税查验和风险把控的重要数据来源之一,目前在海关关税部门主要采用人工调阅的方式进行;由于人工处理随附单据效率较低、商品信息可关联程度不够,亟需研究高效的随附单据自动识别与处理系统,以降低查验成本、进而为自动化通关打下基础。本文对海关申报中随附单据中表格的检测识别和语义提取进行了系统研究。由于随附单据主要以形式多变、表达多样的扫描表格图像方式呈现,本文从随附单据预处理、图像中的表格区域检测、随附单据表格语义分析和表格中中文字符识别这几个环节进行了深入探索。主要工作如下:1.针对随附单据中存在的印章干扰、扫描过程中的方向多变等问题,提出了随附单据中的印章消除、基于直线检测的倾斜校正、改变图像清晰度等预处理步骤,提高了随附单据图像文档的质量;2.针对随附单据图像中表格样式和区域多变的问题,提出了一种基于文字行相似度匹配的表格区域检测方法。这是由于无论表格如何表达,表格区域内必然包含若干商品信息,而每件商品信息会对应表格中的一个文本行。受此启发,本文首先根据随附单据中的几何特征提取,确定第一件商品信息所对应的文字行;接下来,以该行作为文字行模型,通过与其它文字行之间的相似度计算,找出所有相似的文字行。由于表格区域内相邻文字行之间的间隔是相对固定的,本文根据这一几何特性进一步筛选出属于表格区域的文字行,筛选出的文字行即构成了随附单据中待分析的表格区域。3.海关随附单据图像中存在原产国、买方、卖方、成交方式等关键信息,这些关键信息通常以“属性”和“属性值”的键值对形式出现;但是,这些信息键值对往往无规律地分布在整张单据图像上,且键值对中“属性”和“属性值”的结构也无一定规律可循,甚至可能出现嵌套型的键值对。针对随附单据表格语义表达多样性的难题,本文提出了一种基于解释描述语言的信息提取方法,该方法首先通过与人的交互给定这些信息的“属性”和“属性值”区域,然后通过描述语言定义、编译器词法和语法规则的检查,最后通过解析程序解析描述语言得到“属性”和“属性值”的对应关系。本文根据单据图像中信息的特点设计了语法规则,并使用BNF范式描述语法规则,采用语法分析程序Yacc和词法分析程序Lex构建了编译器。4.针对开源字符识别工具Tesseract OCR识别中文准确度不高的问题,本文收集了 50种字体,并通过几何旋转、背景变换等方法生成了 70万张训练数据,进而采用卷积神经网络模型进行训练、使用卷积神经网络模型对中文字符进行识别。基于以上技术,本文实现了一个海关随附单据识别和处理的原型系统。在实际海关随附单据数据集上的实验结果表明,本文所提出的方法可有效识别出随附单据图像中的重要信息,并可在与其它关税申报信息结合基础上,为我国海关关税风险预测和把控提供依据。

其他文献

弄清“三个问题” 提升共青团党史学习教育成效

习近平总书记在党史学习教育动员大会上明确要求,抓好青少年学习教育,让红色基因、革命薪火代代传承。共青团作为党缔造和领导的青年政治组织,在党史学习教育中,弄清"为什么

期刊

党史学习共青团组织红色基因共青团改革教育成效

我国P2P网贷交易中的信用风险识别研究

P2P网络借贷作为互联网金融的一种新兴理财方式,发展迅速,日益成为投资人选择的主要理财渠道。但由于我国网贷市场未完全实现利率市场化以及缺乏健全的社会征信体系,从保障投

学位

网络借贷信息不对称信号传递模型信用风险识别

基于激励机制与CRM系统的L市邮政公司交叉销售研究

随着我们国家市场化经营不断深入,“分业管理、综合经营”已经变成现代企业成长的关键途径。在开展交叉销售的市场环境下,各行各业逐渐走向多元化经营。但是,多元化经营公司

学位

L市邮政公司交叉销售CRM系统激励机制理论

路港公司铁路货运期权定价研究

铁路作为我国的一大重要交通基础设施,是国民经济的大动脉。货物运输在铁路运输中起到不可或缺的作用,货运运价的走向可以直接影响铁路货运公司的经济效益。然而在市场竞争日

学位

铁路货运期权定价模型

高职英语教学中应用美国5C外语学习标准的调查研究

为了提高美国学生的外语能力以适应经济全球化的需要,ACTFL(美国外语教学委员会)提出并制订了国家级课程标准——《21世纪外语学习标准》(1999)。该《标准》将美国21世纪的外

学位

5C标准高职英语教学前后变化影响因素原因

贾樟柯电影纪实美学观念流变研究

随着贾樟柯电影的解禁与公映,其纪实的创作观念日益受到国内外学者的关注。他的电影以中国当下社会现实为原型,以纪实的手法还原了现代社会在中国的独特样本。本文通过系统梳理贾樟柯创作的三个阶段,现实观、表现观、技巧观三个面观照其纪实美学观念的流变,推进纪实观念在影视创作实践中的使用,催生优秀的纪实风格的作品,使国内受众的观影习惯和期待有所变化,从精心包装的梦幻生活回归现实本真。本文分为三章。第一章写贾樟柯

学位

贾樟柯纪实美学现实虚构

社交关系强度对社会化电子商务推荐采纳的影响研究

随着社会化媒体的渗透率不断提高,基于社会化媒体的新型电子商务——社会化电子商务发展势如破竹,成为了行业竞相追逐的热点。社会化电子商务基于人际关系网络,利用互联网社

学位

社交关系强度社会化电子商务推荐采纳

基于供应链视角下的QD公司采购项目风险管理研究

采购对于餐饮企业的食品安全、成本控制、经济效益起着举足轻重的作用。特别是随着市场物价的上涨,原材料采购成本在餐饮企业成本中的比例逐步加大,如何有效地保障原材料采购

学位

供应链采购风险风险识别风险评价风险应对

MiR-433通过下调PAK4的表达抑制A549细胞增殖及迁移

目的近些年来肺癌发生率日益严重,并且以非小细胞肺癌(Non-Small Cell Lung Cancer,NSCLC)最为严重,已经有研究报道miR-433(微小RNA 433)与胃癌,口腔鳞状细胞癌有关。尚未发

学位

mi R-433PAK4增殖迁移

不礼貌视角下美国总统候选人辩论中冲突话语的研究

冲突话语是日常生活中常见并不可避免的语言现象。早先,学者们并没有注意到冲突话语,因为他们认为研究此话题意义不大,并且收集语料困难。Grimshaw首次使用此术语--冲突话语

学位

冲突话语不礼貌不礼貌策略不礼貌回应模式语用功能

海关随附单据中表格的检测识别和语义提取研究

与本文相关的学术论文