深度学习方法手写气象档案资料的定位及识别技术研究

来源 :山东科技大学 | 被引量 : 0次 | 上传用户:xialiaoj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
气象档案为气象监测与科学研究等各个领域提供着重要的数据支持,具有很高的保存与研究价值。现存许多的历史气象档案多为手写纸质档案,为了更妥善的保存与保护,利用科技手段数字化储存十分有必要。档案数字化的常规方法是人工比对数据并录入,最终以电子档案的形式进行保存。人工整理流程繁杂,录入精度较低且耗时太长,通常需要投入大批量的人力物力,效率也得不到保障。近些年来,人工智能技术取得长足进步,为工业生产带来了诸多便利,以人工智能代替人工是时代的潮流。本文的工作就是采用深度学习的方法定位档案文本区域,对要录入的内容进行自动识别,减少人工工作量,提升工作效率。气象档案数据数字化主要分为两个任务:文本定位与字符识别。在文本定位任务中,相对于传统文本定位方法,深度学习方法精度更高。不同于常规的目标检测任务,文本目标的长度并不固定,因此定位网络选用对序列信息敏感的连接文本建议网络(CTPN,Connectionist Text Proposal Network)。文本目标在扫描图像中排列密集且目标较小,CTPN模型对于微小目标定位的能力较弱,同时加大了模型的训练难度,最终影响之后字符的识别效果。针对微小目标难以定位的问题,本文提出从局部到整体的策略,按照档案数据特点对扫描图像自动划分区域,在子区域中进行定位。我们将气象档案的扫描数据做了图像去噪,二值化等预处理步骤,并使用霍夫变换方法对图像进行了倾斜校正,最后提取表格的局部区域。分别对扫描图像做整体训练和局部训练,相同的训练轮次,局部训练的模型收敛的更快,定位准确。而整体训练的模型出现大量误提漏提情况,无法实际应用。字符识别任务中也存在诸多难题,例如,不同记录员的字迹多有不同,相同字符也会因记录员字迹不同而存在较大差异,且手写字符间会有粘连,无法进行字符分割单独识别每一个字符。为提高网络的泛化能力,本文准备了大量的训练数据,保证数据的多样性,确保可以识别不同字迹的文本。而对于传统方法无法识别粘连字符的问题,本文选择了结合卷积神经网络(CNN,Convolutional Neural Network)与长短时记忆网络(LSTM,Long Short-Term Memory)的卷积循环网络(CRNN,Convolutional Recurrent Neural Network)。CRNN可对连续文本进行识别。手写档案中还存在涂改的字符,对于涂改划掉的字符,CRNN会将其判定为与其结构最为相似的错误字符,这成为识别任务的一大难题。对此,本文根据无涂改数据与涂改数据之间的差异,构建了两个特征不同的数据集,分别训练模型,学习涂改字符的特征。在确保无涂改文本被正确识别的前提下甄别出涂改文本。最后在测试集中进行测试,将两个模型识别结果不同的图片剔除,用于后期人工筛查,剩余图片与标签比对确定精度。识别精度达到99.7%以上,并与腾讯识图算法的识别结果进行了对比:本文算法在粘连字符识别问题上有明显的优势,且能准确的甄别出涂改字符。本文的工作能够显著减少工作量提高工作效率。
其他文献
目的:统计PIK3CA突变在子宫内膜样腺癌(EEC)中的发生情况,研究PIK3CA突变与预后的关系,探索PIK3CA突变相关的分子机制,尝试以PIK3CA突变及突变相关的基因构建子宫内膜样腺癌的预后预测模型,用生信方法和实验方法验证模型的效能,开发模型应用于临床的工具,并且探索模型的分子机制。内容:从TCGA获取EEC患者相关信息,将患者分为PIK3CA突变组和野生组,比较两组患者的总生存(OS)
目的:观察疏肝补肾法治疗肝郁肾虚证高催乳素血症治疗前后血清催乳素水平和相关临床症状,并探讨中药的作用机制。方法:选择40例研究对象,符合肝郁肾虚证高催乳素血症纳入标准,给与疏肝补肾中药治疗3个月,观察患者治疗前后血清PRL的变化及月经后期、月经量少、溢乳、腰膝酸软、胸胁乳房胀痛等相关中医症状的情况。结果:①总疗效:治疗后,痊愈5例,占12.50%,显效13例,占32.50%,有效18例,占45.0
固体氧化物燃料电池(SOFC)是一种应用前景广阔的新兴能源,但在其正常工作时无法准确测量内部的温度分布,严重制约了其商业化生产。本文根据磁纳米的温度敏感性,设计了一套非
目的:运用多因素Logistic回归分析总结影响混合痔外剥内扎术后创面愈合质量的危险因素,有预见性的指导混合痔患者术后康复工作。方法:根据本课题研究内容,设计编写混合痔患者基本资料调查表,记录患者入院时基线资料及术后相关情况填写调查表,并进行相关术后观察及评分,通过观察患者术后7d的创面疼痛、创面分泌物、创缘水肿情况进行评分来评价创面愈合质量。将数据进行汇总统计,运用多因素logistic回归分析
疲劳失效是金属材料在长期循环应力应变作用下产生疲劳裂纹,损伤不断累积,最终突然发生断裂的现象。机械设备中零件突然发生疲劳断裂会造成重大事故和损失,因此,预测金属材料
为满足人们对于便携式电子设备和电动汽车中电池能量密度日益增长的需求,锂因其低的氧化还原电位和超高的理论容量,被认为是新一代高能量密度电池负极材料。然而,长循环过程
关于非线性时变信号的问题涉及医疗、音频、经济、油田开采等多个领域,目前对于时变信号相关领域的分类和预测是当前信号处理和人工智能领域的研究热点之一,具有很强的理论意义和实际应用价值。由于时变信号背景下的应用广泛,同时时变信号具有高度的时变依赖性、非平稳性、高维性、噪声、模态特征多变、不规则等特点,因此实际应用中时变信号分类一直是分类领域的研究难点之一。随着技术不断发展,硬件设施性能不断提高,深度神经
工业废气、汽车尾气、生活煤气中的硫化物和氮氧化物等严重污染了我们每天呼吸的空气,工业废水和生活污水的任意排放对饮用水的污染也十分严峻。这些环境污染问题已经极大的
自从H.Markowitz提出均值——方差理论以来,现代资产组合理论的研究有了长足的发展,分散投资从此有了理论基础。特别是资本资产定价模型CAPM、APT套利模型等一系列重要模型的
四旋翼是多旋翼飞行器的一种,相对于其他飞行器而言,它具有体积小、重量轻、灵敏性好、可垂直起降的特点。尽管四旋翼飞行器具有以上优点,然而其动力学模型的强非线性和耦合