基于表格识别技术的茶叶检测报告识别研究与应用

来源 :中南民族大学 | 被引量 : 0次 | 上传用户:lj55769145
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
茶叶检测报告数据是衡量茶叶质量安全的重要指标。从大量茶叶检测报告中挖掘信息和内在价值,服务于政府和公众,已经成为当前我国茶叶信息化建设的必然要求。但是目前茶叶检测报告大部分仍采用纸质文档或电子图像的形式,这种非结构化的数据无法直接在计算机中进行数据分析处理,使得大量的检测信息无法被充分利用起来。如何快速有效地识别与提取茶叶检测报告图像中的信息,形成茶叶质量数据库,对于提高茶叶品质、保障茶叶质量安全具有重要的意义。本文是在湖北省技术创新专项重大项目“基于GAP的茶叶生产过程及质量安全智能控制关键技术研究”的支持下,针对项目中构建茶叶质量物联检测在线服务平台的需求,围绕茶叶检测报告中表格信息的自动识别展开研究工作,设计并实现了一个茶叶检测报告自动识别系统。本文将茶叶检测报告表格识别分为表格布局结构识别与表格逻辑结构识别两项任务。主要研究工作和创新如下:1.设计并实现了一个针对茶叶检测报告表格的布局结构识别系统。针对茶叶检测报告图像中有红色印章造成对表格数据遮挡的问题,进行红章去除等预处理工作;通过形态学操作膨胀与腐蚀来完成表格框线检测工作,并通过实验寻找出合适的腐蚀结构元素与膨胀结构单元;最后采用CNN+Bi-GRU+CTC结合的深度学习模型完成单元格中文字的识别。实验结果表明了本系统的有效性。2.提出了一个多特征融合的表格单元格分类模型MFFCCM,实现了表格逻辑结构识别。首先分别基于词向量和字向量从不同粒度对单元格文本进行表示,并通过拼接的方式实现字词向量的融合,通过Text CNN进行单元格文本特征提取;融合单元格的文本特征与空间位置特征,采用自注意力机制提取单元格之间的相互关系特征;使用MLP作为分类器,完成单元格分类任务;最后针对茶叶检测报告中的表格单元格之间逻辑匹配关系,给出了对应的匹配算法,实现了标题单元格与内容单元格的匹配,完成了表格的自动识别。实验结果验证了本文模型的有效性。3.开发了一个茶叶检测报告表格识别系统。在以上研究的基础上,针对茶叶质量物联检测在线服务平台的需求,实现了茶叶质量物联检测在线服务平台中茶叶检测报告的自动识别。系统采用灵活性更高的微服务架构,前端采用Vue框架,使用http协议进行前后端交互,采用Nginx作为负载均衡,网关API采用Spring Cloud Gateway,服务注册发现采用Spring Cloud Netflix Eureka,授权认证采用OAuth2.0。
其他文献
脑肿瘤是一种严重威胁人类健康的脑部病症。病患从心理和生理上受到肿瘤的折磨,死亡率非常高。基于脑部MRI图像的肿瘤分割给医生分析病情带来极大的便利。近年来深度学习的快速发展大幅提高了脑肿瘤分割的精度,逐渐取代了传统分割方法和机器学习分割方法。针对现有的Dense Net算法存在着分割耗时长、网络十分复杂的问题,本文提出了DW-GN-Dense Net。它在Dense Net的基础上,将普通的输入卷积
学位
网络社交等互联网应用加快了人们之间信息共享与传播的速度,然而网络平台发言的便捷性、隐蔽性以及低成本特性,容易滋生不实消息,引起舆论风波,增加群众焦虑情绪。因此,对互联网舆情进行有效的预警分析,不仅能为相关部门争取更多的反应时间,做出应对措施,同时可以进一步压缩信息的真空、防止虚假消息的传播,降低舆情所带来的负面影响。对互联网舆情监测中的预警工作进行了详细的分析和综述。根据不同应用场景下采用预警模型
学位
非线性负载/波动负载的大量使用是电力系统产生谐波/间谐波的主要原因,谐波/间谐波对电力系统造成了严重的影响。谐波/间谐波治理迫在眉睫,而高精度的谐波/间谐波检测是谐波/间谐波治理的关键,对于维护电力系统的安全稳定运行具有重要的意义。目前,加窗插值FFT法广泛应用于谐波/间谐波检测的研究中,该方法通过加窗和插值的手段分别改善了FFT过程中的频谱泄露和栅栏效应问题,其中窗函数选择对该方法的检测精度有着
学位
在我国工业化进程取得巨大成就的背景下,工业产品的质量控制越来越受到企业和消费者的重视,对其产品质量也有很高的要求。特别是对于棉布产品,由于其纹理复杂、对比度低、缺陷弱小、缺陷种类复杂等特性,导致棉布产品瑕疵检测过程变得尤为困难。而人工检测的方法速度较慢、识别精度低、且标准不易统一,所以基于计算机视觉的瑕疵自动化检测技术是工业应用的必然趋势,该方法具有非接触性、低成本、高精度和快速等优点。本文针对棉
学位
随着计算机技术的快速发展,越来越多的字符信息以图像的形式出现,我国对字符识别技术进行了广泛的研究,同时也推动了信息时代下的数据库建立、输入自动化、信息印刷等技术的发展。传统的字符识别技术是基于模式识别的基础上进行的,在识别效率、准确率与智能性上都有一定的缺陷。随着深度学习的发展,字符识别技术突破了传统技术框架的瓶颈,作为新的研究热点展现出更广阔的应用场景。虽然字符识别技术在深度学习的发展下飞速进步
学位
<正>板栗树嫁接第2年结果、丰产需要采取的措施如下。1 选用的接穗肥壮、芽体饱满当年接穗抽出的枝条健壮,上、下粗度基本一致,枝条顶端芽体圆润、饱满、密集,才能形成第2年结果的预备枝,保证嫁接第2年结果、丰产。2 选用优质、稳产、高产的接穗品种优质、稳产、高产的接穗品种要具备的条件:一是栗籽要达到一级标准的个头、果形好、颜色好、发亮;二是品质好、口感好、水分少、含糖量高、蛋白质含量高;三是抗旱、抗寒
期刊
结合板栗生物学特性,总结了一套适于低山丘陵地区板栗丰产栽培技术措施。
期刊
<正> 《千金翼方诠译》(学苑出版社,1995),是《千金翼方》国内首次校注本,整理之功甚巨,其中尤以钱超尘先生校定的“唐本伤寒论”部分最为精覆。然捧读细研之余,发现该书间或存在一些问题,今缀拾数条,约略言之,以就教于同道。 1《卷二十九·杂受禁法第三》;“不得饮酒、食肉、五辛、芸苔、乳酪、酥蜜,心如药王药上,愿救护一切
期刊
<正>我国板栗栽培面积广泛,北方的燕山板栗(京东板栗)在我国板栗生产中具有独特的地位,享誉海内外。河北省板栗主产区主要有兴隆、遵化、迁西、宽城、青龙等县市。这些地区果农的主要生活来源是板栗,在多年生产中,广大栗农通过不断的学习,逐年改变修剪技术和管理方法,板栗品质得到提高,产量也有所增加。可秋收栗实时,还一直存在部分栗实较小的情况,影响整体市场,有损燕山板栗的品牌。因此,笔者在长期生产实践中总结出
期刊
<正>春季抹芽是板栗树冬剪后第1个修剪措施,也最简便易学。每年春季随着气温的逐渐升高,板栗树体内的养分和水分开始从根部向树上流动,树上的芽就会萌发。例如:结果母枝上的饱满芽会抽生出结果枝,其他芽会抽生出雄花枝;冬季修剪时剪锯口处的一些芽,因短截受到刺激也会萌发;新嫁接的板栗树因去除了大量枝梢,树上的一些芽也会萌发。这些萌发的芽有些是我们想要利用的,需要保留,有些是多余无用的,就要及早地抹掉,避免树
期刊