自监督学习在脱机数学公式手写体识别中的研究与实现

来源 :电子科技大学 | 被引量 : 1次 | 上传用户:sjay357
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的发展,传统的教育模式被互联网赋予了新的时代内涵。在智能化教育的领域中,基于脱机手写体数学公式识别的自动判卷系统可以将教师从繁重的体力劳动中解放出来。然而,由于数学公式的元素结构中包含有诸如分式类,根式等复杂的非一维结构,导致这方面的进展十分缓慢。在本文中,我们构建了一个从复杂背景中准确提取数学公式并识别的脱机手写体数学公式识别系统,该系统分为如下三个模块。1.公式切行模块,主要功能是基于现有的目标检测技术的将数学公式从复杂背景中定位切分。2.结构分析模块,针对数学公式中的复杂结构问题,提出了一种基于自监督学习的语义分割方法,基于此方法,我们将手写体数学公式中存在的分式类,根式类,向量类,上下标类等二维结构以及学生答题过程中产生的汉字,删除笔等非数学符号进行定位分析,进而完成了对手写体数学公式二维结构的文法分析,并且通过传统图像处理算法对分析的结果进行校正与提升。3序列识别模块,根据目前的序列识别技术搭建了图像文本识别网络,主要功能是识别经过结构分析模块处理之后得到的无特殊结构的序列文本。该系统不仅在数学公式二维结构的文法分析上表现优异,并且针对当前业界脱机手写体数学公式识别模型中存在的无法识别多行文本,无法处理公式中的汉字,无法处理公式中存在的删除笔迹等问题都提出了行之有效的解决方案。最终,我们的系统在成都市中学生答题卡采集的照片数据中,公式切行的平均准确率达到了84.7%,错判率降低至7.2%;基于自监督学习的语义分割算法平均像素准确率达到了93.37%,平均交并比达到了81.22%;序列识别的平均字符准确率达到了98.58%。
其他文献
随着化石燃料的消耗和日益严重的环境问题,生物质作为一种环境友好型的可再生能源受到世界各国的广泛关注。生物质气化是获得高品质合成气的主要生物质能利用技术之一。然而,
从文献利用率和读者影响力角度,综合读者借阅、专家推荐与评价和历史采购三个方面,构建了一个实用性强、便于操作的“核心出版社”测定模型,为提高文献采访质量和效率提供辅助决
初中生正处于价值观与人生观形成的关键阶段,极易受到外界不良风气的腐蚀与影响,初中政治教学的主要目的是培养学生的政治抱负与高尚道德情操,不少初中政治教师为提升教学质
深圳市龙岗区图书馆从自身实情出发,探索构建具有龙岗特色的劳务工图书馆的模式。文章透过该馆与联创企业共建劳务工图书馆的工作实践,论证了构建劳务工图书馆的可行性和实效性
土壤有机碳是土壤肥力的基础,维持着农田生产力和农业生态系统的稳定,对气候变化亦产生重要影响。植物残体作为土壤有机碳重要有机物来源之一,进入土壤后对土壤有机碳的累积和矿化(激发效应)影响较大,且受温度和土壤基础肥力的显著影响。然而,目前对这方面的研究仍略显不足。基于此,为了明确外源有机物(玉米秸秆碳)添加后,不同肥力土壤有机碳矿化的差异特征和对温度的敏感性及其作用关系,本研究以沈阳农业大学棕壤长期定
介绍OPAC与互联网图书编目系统的融合现状,提出读者在互联网网站参与图书编目、解决读者自由分类与OPAC的中图分类数据的对接方法,分析如何保证互联网图书编目的准确性。
"新现实主义"和"先锋派俗文艺"是当代美国文坛的两大主流.这两大主流能发展并持续到新世纪,反映了人们对"学院派"小说形式的厌倦和对传统文学的眷恋.
随着中国城市化的加快,铁路网络不断密集化和客流量持续增加对列车运行控制系统提出了更高的要求。安全计算机作为列控系统的核心,其平台结构和应用逻辑越加复杂。未来安全计算机的一个重要发展趋势就是所需要处理的数据量呈指数增长。数据量的增长使得输入的模拟量数据不一致性问题更加突出,这给列控系统的安全与高效运行带来了极大挑战。当前安全计算机采用的数据比较架构并不能解决数据不一致性问题,已经无法满足未来安全计算
文本是一个符号体系,由多丛意义构成,而又和谐统一.文学活动主体的社会和自然的双重属性,人类本能与无意识的类似与升华途径的多种多样,以及语言"约定"的任意性和"俗成"的稳
从知识的粘性、相关性、可表达性、模糊性、复杂性、私密性等六方面的属性着手,分析联盟组织间知识共享的客体障碍因素,并就如何化解知识自身所带来的共享障碍提出对策。