【摘 要】
:
随着信息科学技术的发展,人们越来越倾向于使用计算机作为信息自动化处理工具,这种方式不仅可以节省人力和时间,而且可以有效地减少人为操作错误。实体资料信息化是计算机信息自动化处理的一个重要的应用领域,早期由于技术限制很多资料都是以纸质的方式记录,存储成本高、存储时效有限而且整理检索的成本也很高。教育领域是实体资料信息化的一个主要分支,教学过程中考试是一种有效的教学评估手段,试卷信息化不仅有助于试卷电子
论文部分内容阅读
随着信息科学技术的发展,人们越来越倾向于使用计算机作为信息自动化处理工具,这种方式不仅可以节省人力和时间,而且可以有效地减少人为操作错误。实体资料信息化是计算机信息自动化处理的一个重要的应用领域,早期由于技术限制很多资料都是以纸质的方式记录,存储成本高、存储时效有限而且整理检索的成本也很高。教育领域是实体资料信息化的一个主要分支,教学过程中考试是一种有效的教学评估手段,试卷信息化不仅有助于试卷电子化保存,而且可以快速有效地对试卷内容统计分析。目前OCR技术对于印刷体文本识别效果比较好,在手写体数字识别和数学公式识别方面仍存在比较大的研究和应用空间。本文利用数字图像处理技术和深度学习以试卷图片作为研究载体进行手写体数字识别和数学公式识别,主要研究内容包括两个方面。(1)首先利用试卷的定位点信息以及试卷版面的一些固定格式将试卷中的题号和对应的答题区域提取并对应起来,该过程包括定位点识别、定位点坐标有序化、定位点坐标序列划分、答题区域划分和题号提取识别五个步骤。然后利用颜色空间转换、轮廓提取筛选、粘连字符分割和图像归一化提取试卷手写体分数并使用CNN对其进行识别。针对常用数字识别模型Le Net-5因书写地域差异问题在MNIST数据集上表现效果好但是在实际应用中识别准确率较低的问题,本文借鉴迁移学习的思想加深网络层次对MNIST数据集和试卷手写体分数数据集进行阶段式训练,在保证手写体数字识别的通用性前提下提升了实际应用中的效果。最后本文将答题区域信息和手写体分数信息结合设计了分数自动统计流程将手写体数字识别应用到实际教学工作中。(2)从传统方法和深度学习方法两方面进行数学公式识别研究。传统方法通过字符识别和结构分析识别公式。本文字符识别利用连通域分割划分字符,使用AMSFonts中常用字体符号数据库作为模板,以归一化的中心惯性矩、圆形拓扑和Hu不变矩阵为特征,保证字符在缩放、平移、旋转等情况下的识别准确率。结构分析借鉴Te X排版系统,以匣子为基本单位,通过对常用公式结构制定对应合并规则进行分析。深度学习方法基于Encoder-Decoder with Attention对公式整体识别,本文在Encoder部分使用Inception v3网络增强特征提取并且添加位置嵌入保留图像特征位置信息,然后通过Encoder、Decoder和Attention部分的不同替换方案进行对比实验得到识别效果最好的模型,最终模型在im2latex-100k数据集和课题数据集上BLEU分数为88.63%。
其他文献
近年来,作为可充型的储能器件,超级电容器得到了飞速的发展。作为超级电容器性能的决定性因素,电极材料的制备方法和性能研究成为当今科学发展的首要目标。其中,二氧化锰作为超级电容器的正极材料,具有资源丰富、环境友好和较高的理论比电容等优点,因此受到广泛的关注和探索。但作为单一的电极材料,在电容性和稳定性等方面仍具有明显的不足。为了解决这一问题,在本论文中设计并制备了一种多孔核-壳结构的正极材料,利用XR
随着中国农村集体经济快速发展,农村集体经济组织所拥有的经营性资产、非经营性资产和资源性资产(以下简称“三类”资产)管理问题已成为政府部门工作的重点和难点。面对新形
本文对于淮南市采煤沉陷区综合治理模式和沉陷土地利用展开了研究。通过分析沉陷区地质概况和沉陷特点,市域煤炭企业运营状况,沉陷现状;回顾“十二五”期间淮南市采煤沉陷区
流量混淆协议Obfs4是匿名通信工具Tor用来抵抗流量检测以提高网络可用性的主要机制。在真实环境中,针对Obfs4的流量检测面临以下几个问题:1)Obfs4极强的抗检测能力:Obfs4协议采取改进型椭圆曲线加密算法,对数据包全部内容进行加密,因此数据包头部和负载都不具有任何有效的明文信息,可以抵抗所有基于数据包明文信息的流量识别算法。对数据包负载部分Obfs4还使用随机填充的方式,使数据包长度分布
共振式消声器常被用于降低汽车排气系统噪声,但消声器实际工作时存在高速高温气流,使消声器消声性能难以达到理想效果,因此研究消声器有流时消声性能具有一定的实际意义。本
石墨烯(graphene)具有二维网状结构,它的单层碳原子以蜂窝形状的碳网结构存在。理论上,石墨烯单层厚度为0.335 nm。石墨烯优越的性能使其在众多领域具备非常广阔的应用前景。为了实现石墨烯低成本、高质量的制备以及探究石墨烯的基础应用,本文主要开展了如下工作:(1)以金属氯化物作为插层剂对天然鳞片石墨进行插层,成功制备得到了一阶的石墨层间化合物(Graphite intercalation c
随着计算机技术、电子信息技术、机器视觉技术的发展,移动机器人已经在仓储物流、餐厅及个人家庭等领域有了广泛的应用。自主导航实现是移动机器人的必备能力,是执行其它各种任务的基础。同时定位与地图构建(Simultaneous Localization and Mapping,SLAM)和路径规划作为自主导航系统的两大关键技术,一直是移动机器人领域研究的重点方向。融合视觉的SLAM技术因含有大量的图像信息
膜生物反应器(MBR)是一种高效的水处理技术,其有高质量可循环利用的处理水和能源。但是,膜污染是MBR工艺的主要缺点,主要原因是其会导致渗透率下降。膜通量或跨膜压力(TMP)随处理时间的增加而增加,导致膜的运营成本增加,最终缩短了膜的使用寿命,因此,膜污染仍是限制MBR发展的主要问题。微生物燃料电池(MFC)处理污水时,可将有机物中的化学能转化为电能,并产生清洁能源。本实验将MFC与MBR组合在一
多模态数据是从多个来源或特征子集获得的数据。例如,一个人的身份可以通过从字迹、指纹、面部、眼睛虹膜等多个来源获得的数据进行识别,而一张图像可以用其颜色和纹理特征来表示。大数据时代的来临,对所有数据进行标注是非常困难的,而聚类算法可以根据样本之间的相似性关系对其自动分组,所以,近年来针对多模态数据的聚类算法得到了越来越多的关注。多模态聚类的关键在于探索各模态数据间的共享信息,传统的多模态聚类算法只能
自从现代通信技术诞生以来,如何以更加低廉的代价(信号功率、信号带宽、传输时延等)来达到更加可靠的通信一直是信息技术领域的核心关键,而无线通信系统中最核心的问题就是信道编码技术。基于信道极化理论诞生的极化码(Polar Code)是在通信领域内首次可以被严格证明达到香农信道容量的信道编码方法,其纠错性能也优于Turbo码、LDPC码等译码方法。另一方面,高校与科研院所在进行通信系统研究时通常选择利用