文档图像的版面分析与文本行提取算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:woaixuyong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
纸质文档数字化有着广阔的应用前景。利用光学字符识别技术,可以直接从图像中提取我们所需要的数据,会极大方便信息的存储、处理和检索,也将会减轻人手工录入信息的负担。准确的文本行提取是顺利完成文本识别的重要前提保证。当前基于CNN+LSTM+CTC等深度学习模型不断提出,有效地解决了端到端不定长文本字符的识别问题,但对行提取的性能远未令人满意。所以本文主要将研究如何从原始图片更有效而准确的实现页面中文本行的提取。由于图片文档存在图片倾斜和背景复杂的问题,可能会含有大量噪声或者无效信息,将会影响最终的识别结果。故首先介绍了对复杂背景的文档进行倾斜矫正和图像去噪增强的预处理的方法。本文研究的重点是文档对象的检测与识别,准确的文档对象识别是顺利实现文本行提取的前提。本文提出了基于深度学习的目标检测和语义分割算法实现文本对象识别与检测的方法,有效解决了传统方法较难提取页面特征、方法通用性差的问题。同时针对文档对象检测的特点,本文在通用的算法上修改锚框机制、修改损失函数、修改感兴趣区域层映射和归一化方式,并采用多尺度特征融合等方法,使得算法在检测结果上有了进一步提高,该算法在ICDAR 2017页面文档对象评测集上将交并比指标为0.6和0.8上的平均精度均值从0.787和0.637提升到了0.865和0.752。根据文档对象检测的结果,在不同的文档区域做相应的处理以减少对整个文档造成的信息损失,如表格区域进行去线处理,印章区域分离颜色通道进行移除处理。同时针对纯文本页面和含有表格页面的文本分布的不同特点,本文分别设计了不同的文本行提取算法。其中纯文本页面的文本行提取本文采用了基于深度学习的自然场景文本检测算法CTPN和投影法相结合的方法提取文本行区域,有效解决了页面背景复杂下的文本行提取问题。本文通过设计针对页面特点的文本行提取算法,实现了较好的文本行提取。将上述工作后得到的文本行区域记录位置提取,送到识别引擎进行识别,就完整的构成了一整套文档识别系统。整个系统选择本地文档图像后,会依次进行文档的倾斜矫正、去噪、文档对象识别与检测、表格线去除、去印章等步骤,并将文本行区域提取传递给后端识别引擎。经过测试,系统在在图像去噪、文档对象检测、文本行提取上都取得了良好的效果,整个系统具有较好的实用价值。
其他文献
如何推进新旧动能转换?人们一般比较关注发展新产业、新业态、新技术、新商业模式.这“小四新”对于新旧动能转换确实非常重要.但如果从更宏观的视角看,推进新旧动能转换还应
现代物流园区作为联系产业上下游的纽带,是各项物流活动开展的重要载体。因此,各地物流园区建设风起云涌,然而物流园区的概念模糊,导致许多物流园区尤其是中小城市的物流园区
日前,财政部发布了《关于推进和完善服务项目政府采购有关问题的通知》,着力推进和完善服务项目政府采购的有关事项。这成为进一步落实十八届三中全会所作《中共中央关于全面深
报纸
<正>改革开放40年来,首都城市管理伴随着经济社会的快速发展、城市规模的不断扩大,经历了波澜壮阔的发展历程,从建设到管理、从专业到综合、从管理到治理,走出了一条符合首都
通过研究高师学前美术教育实践课程的教学内容与形式,从教学实际出发探讨美术实践课程教学的途径与方法,以使美术实践类课程设置趋于合理完善,适应学前美术教育改革需要,增强
美国工程教育认证制度对提高美国乃至世界的工程教育质量发挥了极其重要的作用,随着中国加入《华盛顿协议》,也必将对中国高等工程教育的发展产生深远的影响。本文结合美国工
采用硬度、冲击性能试验和金相分析等方法,对20CrMnMo、20CrNi2Mo、20Cr2Ni4、17CrNiMo6四种典型渗碳用钢在不同回火温度下材料的硬度、有效硬化层深度、冲击性能等的影响进
当今影视评论存在"统一发稿"和缺乏"精英文化"的问题。根据影视评论思想标准与艺术标准,影视评论需要"有感而发"和"重视艺术分析"。
自由是人的天性、天权,生命需要自由。教育是一种有目的的培养人的活动,与人的生命密切相关。教育应关注人的自由。而教育首先是儿童的教育,儿童的教育更加需要自由。自由是教化
<正>1978年12月,党的十一届三中全会召开,开启了中国改革开放和社会主义现代化建设的新时期,也推动首都城市管理事业走过了40年潜心探索实践、不断发展壮大的辉煌历程。纵观4