面向复杂文档的公式检测与分析策略研究

来源 :江西财经大学 | 被引量 : 0次 | 上传用户:sunchine0415
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机视觉技术的发展,光学字符识别(Optical Character Recognition,OCR)的精度和速度逐步提高,在文档扫描、证件识别中得到了广泛的应用,然而,当文档中包含大量公式时,因公式具有复杂的结构,现有的文档识别系统在识别公式时时常语义不明,甚至出现乱码,精度依然有待提高。现阶段针对包含公式的文档识别的研究主要采用先拆分、后识别的步骤,其中对于公式块的识别主要以基于深度学习的策略为主,通过编码器提取图片特征,再解码生成La Te X格式的序列文本。这种策略虽然取得了较好的进展,但仍存在一些问题,主要体现在:(1)文档中的公式块包含行内公式和行间公式,在文本块中准确定位出公式块具有一定难度。(2)公式的二维结构复杂,结构解析具有一定难度。(3)公式图像分辨率不高,较小字符的识别容易出现错误。针对上述问题,本研究以包含数学公式、图表的复杂文档作为研究对象,将文档进行拆分并提取公式块、对公式进行结构分析、从而识别出公式的具体内容。主要工作如下:1.训练文档集的数据预处理。收集文档数据并分类标注用于制作训练集,针对文档数据集小且对象分布不均匀的问题,提出一种混合标签重组生成图像训练集的策略(Hybrid label reorganization to generate image,HLR2GI),用于优化YOLOv5模型中Mosaic数据增强策略效果。2.文档对象检测拆分策略研究。基于迁移学习的思想训练文档检测模型,将文档图像中的目标进行分类并定位拆分,并针对小目标和密集目标检测的不足,在检测模型中集成CBAM(Convolutional Block Attention Module)注意力模块用于优化YOLOv5模型,并实验验证和效果分析。3.公式识别策略研究。通过集成超分辨率模块(Super-Resolution,SR)改进了注意力机制(Attention Mechanism)的编码-解码模型(Sequence to Sequence,Seq2seq),用于完成对图像数据的特征提取和识别过程中的序列文本生成,并进行实验对比分析。
其他文献
科技飞速发展的今天,计算机技术以迅猛的速度进入各行各业,物联网技术飞速发展,摄像机等监控设备的联网被广泛应用,但仅靠设备捕捉到的画面难以满足日益复杂的需求。当前,仍有许多城市出现雾霾的天气状况,此时摄像头拍摄到的画面总是朦胧不清,这给后续的许多任务,例如车牌识别、行人面部识别、自动驾驶路况判断等带来了不小的挑战。在这种情况下就需要使用图像处理技术对画面进行处理,去除图像上的雾层,挖掘出被雾霾掩藏的
学位
软件测试是软件开发中非常重要的一项任务,能帮助开发者全面、快速地找到软件漏洞,从而有效提升软件质量和用户体验。设计和选择合理的测试用例,可提升软件的测试效率,减少开发人员的工作量。随着软件功能的不断完善,其规模和复杂度不断增加,传统用例生成方法效率较低,很难满足目前软件测试的需求,故而,如何提高测试用例生成效率仍需进一步研究。基于此,本文针对路径覆盖测试用例自动生成效率问题展开探讨。针对回归测试中
学位
随着传感器技术的飞速发展,人们获得信息的通道越来越多。不同的传感器能够反映场景中不同方面的信息,可以帮助人们更加全面地了解物体的本质。虽然不同传感器图像之间存在着互补信息,但图像和图像之间不可避免的存在冗余信息。红外传感器捕捉场景中的热辐射信息,因此红外图像具有较高的对比度,且能够将显著目标与背景分离。可见光传感器捕捉场景中的光反射信息,因此可见光图像具有较丰富的纹理信息。红外和可见光图像融合旨在
学位
新媒体时代下,社交媒体的高度活跃,吸引了大批有着共同兴趣爱好的网民,“同好者”通过社交网络齐聚一堂,彼此联系,实现信息的交流与互动,这令每个人都不可避免地成为信息的传播者和接收者,且随时随地都能参与到媒介内容的生产过程中去。如此一来,网络中的信息量呈指数型不断增长,但在这急剧增长的信息中却夹杂着大量包含色情、暴力乃至反动等内容的敏感信息。人们的身心健康和财产安全极易遭受这些信息的威胁,不仅如此,带
学位
当今世界,国外在核心技术上对中国进行各种封锁,中国需要凭借自己的能力冲破阻碍,“十四五”规划中也提到科技创新的重要性。创新促进科技的进步,而学科竞赛是培养学生创新能力的重要途径,参加学科竞赛有利于激发学生的创新活力,优化学校的创新生态。现如今,人们的生产生活方式由线下逐步转为线上,人们逐渐习惯了在线上就能完成所要做的工作。因此,本文从学科竞赛中的组队入手,旨在打造一个帮助学生参与竞赛,帮助学校管理
学位
可搜索加密是一种支持用户在密文上进行关键字查找的密码学原语,它能够有效解决无法直接在基于传统加密方案加密的数据中进行查询的问题。在云端的密文数据集中,当用户由于自身缘故导致输入查询关键字有偏差时,仅支持精确查询的可搜索加密会导致搜索结果和用户预期相差较远,甚至没有搜索结果。而支持模糊关键字查询后,云服务器将根据查询关键字搜索与其尽可能相似的文件,从而有效避免上述问题。搜索精度和搜索效率是衡量可搜索
学位
法律文书是司法机关及律师等在解决案件时使用的文书,包含大量司法信息,如何高效地分析和利用这些信息具有重要研究意义。现有的法律文书智能化处理大多集中在法律实体识别和法律实体关系抽取上,对于事件抽取的研究非常少。民事判决书作为日常中最为常见的文书类型,具有一定的普适性,同时判决书作为判案的判决结果,将其作为数据来源可以获得案件细节的详细描述。本文从北大法宝上下载民事判决书作为原始语料,针对民事判决书进
学位
安全生产关系人民利益、关乎社会平稳发展。同时,也是企业能否平稳发展的基础。随着信息化、智能化的不断加深,隐患自查、自检上报平台的应用,企业监管部门以及企业都存储了大量的企业隐患文本数据。如何充分利用这些数据甄别出不负责的企业,为政府监管部门在有限人力资源的情况下实现精确检查、精准执法提供依据,对企业提高自我防范意识、避免生产事故发生具有极为重要的意义。针对安全隐患文本内容较短、特征矩阵稀疏等特性且
学位
装箱问题(Bin-packing problem)是一类经典的带几何约束的组合优化问题。可以将这类问题看作在一定的约束条件下,将若干不规则零件以某种互不重叠的方式放入一定大小的空间中,使得总体空间利用率最大化。装箱问题被广泛应用于面料裁剪、印刷排版、机械制造等工业领域也是任务调度、资源分配等计算机科学领域的重要环节。其中,二维装箱问题具有很高的复杂性,属于NP难问题,用一般的数学方法进行求解较为困
学位
随着信息化程度的日益提高,计算机软件已经被广泛应用于技术产业和国民生活的各个方面,软件系统的规模和复杂程度也在不断提高。软件测试作为提高软件质量、保证软件可靠性的重要手段,在软件开发过程中发挥着重要作用。在众多软件测试技术中,蜕变测试(Metamorphic Testing,MT)作为能有效减轻软件测试中预期输出问题压力的测试技术,目前被广泛应用在人工智能、搜索引擎等缺乏测试预言(Test Ora
学位