多样式表格检测算法及其轻量化研究与实现

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:myevanlee
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
表格检测作为光学字符检测(OCR)的重要组成部分,在信息抽取中有着不可替代的作用。随着办公软件的普及,表格的样式越来越丰富,这也给表格检测任务带来了巨大的挑战。目前,快节奏的工作方式引导人工智能产品开发者提供一种便捷高效的服务模式,致力于将产品部署在移动端,为更多人提供便利。本文以多样式表格检测为目标,探索一种能够在边缘设备提供几乎无损服务的轻量化解决方案。本文的主要研究内容如下:(1)探索了一种多样式表格检测方法:针对多样式表格导致模型性能降低的问题,提出了基于自适应锚框和注意力机制的检测模型A-YOLOv5(adaptive anchor and attention based YOLOv5)。首先提出了一种处理图片纹理特征的自适应锚框生成算法,然后利用锚框与表格的交并比优化了训练样本的选取策略,提高了训练样本的质量,最后利用通道注意力机制,改进模型的主干网络,使其更好地利用高质量训练样本,从而增强对于不同样式表格的检测能力。与基线模型相比,A-YOLOv5在ICDAR 2013和ICDAR 2019数据集上的F1值分别提升了2.3%和2.7%。此外,本文首次提出了一个手工构建的多样式表格检测数据集(Finance Open Table,FOT)。与其他数据集相比,该数据集的表格样式更加丰富。基于该数据集的实验也表明了本文提出的A-YOLOv5模型在多样式表格检测中的有效性。(2)探索了一套适用于多样式表格检测的模型轻量化方案:上文的多样式表格检测方法虽然取得了较好的效果,但模型参数量较大,难以部署于移动端。为了优化模型结构,本文首先使用基于通道的网络剪枝方法对模型进行修剪。然而,模型剪枝后其特征提取能力减弱,性能受到一定影响。为提升模型的特征提取能力,本文提出了一种基于区域注意机制的知识蒸馏方法。该方法在FOT和ICDAR 2019数据集上的F1值较原有模型提升了2.1%和1.3%,这表明了该方法能显著改善剪枝带来的性能损失问题。(3)开发了一个适用于多样式表格检测的移动端系统:为了进一步验证解决方案的效果,本文基于Torch Script实现了一套可部署于移动端的表格检测和识别系统。除了基于A-YOLOv5模型实现了表格检测功能外,该系统还集成了表格信息抽取功能以及模型个性化升级等功能。该系统可部署于目前常见的移动设备上,并且在通用设备上能达到约20FPS的处理速度。
其他文献
电动车辆底盘和传动系统的电气化主要目的是提高交通安全,减小全球排放,保护环境安全。在汽车上的电气化提高了安全性、操控性和舒适性。然而这一趋势导致车辆中增加了更多的元件,如额外的传感器、执行器和软件设施。车辆零部件和子系统的复杂性越来越高,导致部件或子系统故障影响车辆动力学性能的概率越来越高。机械、电气、电子或软件故障可以单独或相互影响而导致这些故障,从而导致严重的交通事故。当车辆正常行驶时,若底盘
随着我国工业化进程不断推进以及人们环保意识的日益增强,各企业都在努力寻求一种以“循环经济理念”为基础的环境友好型经营方式。而工业包装的回收再利用对制造企业发展循环经济具有重要的促进作用,工业再利用包装(Reusable Transport Item,RTI)的使用可以减少物流包装材料的消耗和废弃物的产生、促进单元化物流作业和包装的标准化、集中化管理等。当前在大批量、多批次、多品种的零部件制造行业中
众所周知,改进对热带气旋内部结构的认知,可以改善数值模式的物理过程参数化精度,提高热带气旋路径和强度的预报水平。而在热带气旋的发生、发展和移动的过程中,有相当的时间段位于中低纬度的热带洋面上,因此卫星观测对于弥补热带气旋基础数据的空缺,起到了至关重要的作用,而洋面上空的下投式探空仪(Dropsonde,下同)不仅可以为探测热带气旋的内部结构配备必不可少的“重器”,而且为提高卫星微波数据反演的精度提
基于麦克风阵列的波束成形是一种通过声学图像以进行声源定位可视化的流行技术。该技术可在频域和时域执行,但对于宽带声源,时域技术较频域技术具有计算效率优势。其中,经典广义互相关(Generalized Cross-Correlation,GCC)及其增强版本日渐被广泛运用。本文对基于GCC的诸多增强算法进行对比分析,明确新提出的逆模型方法在合适时间宽度阈值下可获得最佳空间分辨率和旁瓣抑制能力。但到作者
磁珠检测技术在磁珠、肿瘤标志物、细胞、细菌、微生物检测等方面已经得到广泛应用。本论文详细介绍了基于磁敏传感器的磁珠检测技术以及磁珠检测技术在生物医学领域的实际应用,重点介绍了使用GMI传感器进行磁珠检测和生物检测的案例,证明GMI磁珠检测技术在磁珠、肿瘤标志物检测等方面具有可观的应用价值。基于前人的成果和经验,本论文提出将传统微流控芯片替换成纸芯片作为分离式检测工具,并结合GMI传感器建立一种新型
大数据时代,张量得到极大应用,张量的有效表示逐渐成为研究热点。由于张量的“维数诅咒”,高阶张量分解在存储和计算成本上面临着极大的挑战。张量的Tensor Train(TT)分解已发展成为一种非常有效的张量表示,并且现已有稳定的TT分解算法。本文主要研究TT分解算法的加速方法。本文具体工作如下:(1)给出了σ--重排的定义,并理论上证明了σ--重排后的张量在TT形式下的基本运算仍然成立,如果运算结果
汽车的电动化、智能化的发展对汽车的制动系统提出了更高的要求,对于新能源汽车,真空助力制动系统需要安装真空泵来提供真空源,从而使制动系统体积过大;并且传统的制动系统不能用于协调再生制动和摩擦制动。对于智能汽车,真空助力制动系统无法始终保证主动制动功能。因此,开发新型电动液压助力制动系统及其控制是适应未来汽车的必然选择。依托课题组与企业的横向项目“电动液压助力制动系统开发”,论文在电动液压助力制动系统
本文利用WRF模式(Weather Research and Forecasting model)模拟研究短期、长期天气过程下,边界层参数化方案和精细化城市下垫面信息对北京市近地面气象要素和边界层结构的影响,并基于城市冠层参数对温度模拟结果进行改进。首先,选取2018年10月1日02:00至10月4日08:00的晴天过程,采用三层单向嵌套网格,模拟研究YSU(Yonsei University S
现代社会中心血管疾病严重威胁到人类的身体健康,如何实现心血管疾病的早期诊断是人们关注的重点。由于早期患者体内的生物标志物浓度低,对生物检测器件提出了特异性好和灵敏度高的要求。其中,免疫荧光检测由于操作简便、检测灵敏度高,应用十分广泛。同时,操作简单、成本低、响应快的即时检测(POCT)器件是当前生物传感器的重要发展方向。因此,将具有体积小、高通量、集成度高等优点的微流控芯片用于生物检测,可以实现生
基于逆Patch传递函数(Inverse Patch Transfer Function,i PTF)的声源识别法是近年来提出的一种近场声全息技术,可在嘈杂环境中对任意形状声源进行识别。该方法在声源周围假设虚拟声腔并施加合适的边界条件,从而建立声源面振速与虚拟声腔内声压的传递关系,求解声学逆问题得到声源面的振速信息。然而,该方法离散声源的识别会产生鬼影声源影响识别精度;在识别振动板件声源时会在固有