基于深度学习的学生手册识别系统

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:jary_chane
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着教育信息化的不断发展,许多学校和教育企业为了更好地管理学生和教师信息,开始使用数字化的教育信息管理系统。然而针对小学生的学生手册,仍以纸质表格的存储形式为主,若将其人工录入至系统中,则需要耗费大量的时间和人力。为了减少时间成本和人力成本,本文设计并实现了一个基于深度学习的学生手册识别系统,实现了学生手册信息的自动录入。本文的学生手册识别系统设计与实现以特定的学生手册为目标。常见的表格定位算法和字符识别算法对于图像质量和书写规范的要求较高。然而本文学生手册不同页面的表格制式不同,并且由于使用和拍摄等过程的影响,学生手册页面的表格存在弯曲和倾斜等不利于表格定位的情况。此外,学生和教师的书写方式不同,存在书写不清晰和字符粘连等不利于字符识别的情况。本文针对上述情况,设计并实现了学生手册识别系统,该系统由三个部分组成,分别为图像预处理、单元格定位和字符识别。本文的贡献主要有以下三个方面。(1)研究学生手册的图像预处理和表格定位算法。由于学生手册图像的页面结构复杂,表格制式多样,填写方式各异,单一的图像处理方法不能同时解决多个图像问题。本文研究了图像预处理和表格定位相关算法的功能和原理,设计了有针对性的图像处理流程,使后续单元格定位任务的交并比提高了2.66%。(2)提出一种基于深度学习的单元格定位算法。为了解决传统单元格定位算法面对学生手册图像干扰时存在的交并比低、鲁棒性差和扩展性差等问题,本文提出了一种基于深度学习的单元格定位算法,该算法的交并比为96.32%,相对于传统方法提升了5.20%。(3)提出改进的字符切割算法。面对从大尺寸学生手册图像中切割小尺寸页码的问题,本文提出了二次提取算法,先根据页码区域的分布情况进行粗提取,再利用滑动窗口的思想对页码区域进行细提取,实现了页码字符的切割。面对单元格字符切割时存在的表格线干扰和字符粘连干扰的问题,本文提出了自适应阈值的投影切割算法,基于单元格图像的投影结果对表格线和字符粘连区域进行消除,实现了单元格字符的切割。最终页码识别、等第识别和评价识别的准确率分别为96.12%、95.42%和96.75%。本文共有图39幅,表3个,参考文献41篇。
其他文献
随着我国经济的高速发展,城镇化的进程无形之中被加快,越来越多的人群奔向城市,尤其像北京这样的超一线城市必定会成为大量人群聚集地之一,北京市商品房的价格持续涨高,刚毕业的大学生和刚进城的中低收入者家庭无法承担起高昂的购房费用,为了实现“居者有其屋”的目标,提高保障性住房供给规模成为北京市亟待解决的民生问题。丰台区作为北京的六大主城区之一,在六大城区中丰台区的经济发展处于中等水平,选择丰台区作为案例研
电商平台拥有丰富的商品种类和便捷的购物方式,使消费者更愿意选择足不出户,通过手机APP或电脑挑选心仪商品的消费方式。随着科技的发展和人们对生活水平的期待值不断提高,消费者对于购物体验的要求逐渐增高,如何提升客户满意度,吸引大批消费者下单是电商企业首要解决的难题。订单拣选作为电商配送中心众多环节中的一环,其作业水平是决定商品出库效率的关键因素之一。电商配送中心的各个作业环节彼此影响,订单分批的方式既
近年来全球疫情不断蔓延,国内产品内销不畅,外销受阻导致产能过剩库存积压,制造业供给侧矛盾加深。许多线下企业资金周转中断被迫纷纷倒闭。而对比线上多家电商平台比如网易严选、必要商城、小米严选和京东京造发展C2M模式销量反增不减,焕发了巨大的生命力,该模式以销定产,既可以满足消费者定制化产品的需求,又能扩大内需促进双循环。然而,该模式下定制产品趋向多样化,个性化,对供应链提出了更高的需求,所以快速构建新
近年来,我国快递市场日益扩大,快递员数量已超过300万,每日快件配送量超过了1亿件,飞速增长的市场给物流平台带来了巨大挑战。快件送达时间的预测(即在任意时间点上,预测某个快递员的所有未派送快件的送达时间)是物流平台的一项至关重要的任务。准确预测快件送达时间,一方面可以为用户提供更加准时的服务,提升用户体验,另一方面可以协助快递公司进行区域划分和人员调度,以及帮助快递员进行路径规划,提高派送效率。得
在经济迅速增长和文化繁荣发展的带领下,传媒业也出现了欣欣向荣的发展趋势,传媒行业的健康发展与创新在社会发展中具有重要的作用及地位。但在传媒文化繁荣发展的同时存在一些问题,如最常见的标题党现象。标题党是当前互联网背景下典型的新闻传播乱象,在消费主义、经济主义以及自媒体的利益驱动之下,标题党现象迅速发展。新闻撰写者通过哗众取宠、极具噱头的新闻标题来吸引读者的注意,而这种极具夸张的标题脱离了新闻原本的内
从1978年国内理论界提出了住房商品化、土地产权等观点,到1998年住房实物分配制度的取消和按揭政策的实施后房地产投资进入快速发展时期,再到“房住不炒”的商品房居住属性回归下的平稳阶段,我国的商品住宅开发已走过了40年的历史。随着可持续发展基本国策下的节能减排趋势,中央提出了“用10年左右的时间,装配式建筑占新建建筑面积比例达到30%”的目标,这将在人类建筑史上,特别是装配式建筑史上一次史无前例的
随着工业化进程的加快,全球气候的变暖与环境问题的频发,各国倡导降低能源消耗、减少碳排放。物流配送业也是碳排放的主要来源之一,企业在安排货物配送过程中也要考虑环境方面的因素,从车辆调度路径规划方面考虑碳排放的因素。另外随着城市规模的扩大,城市道路的交通拥堵等状况的频发,以及城市的环保要求下,各个城市对载货车辆的配送都出台了许多管控措施,如限号、限时、限区域配送等。企业要在城市各种限行政策下满足各种客
近年来随着社交网络OSN(Online Social Network)的不断兴起,微博平台也日渐成熟。随着大量用户的涌入,恶意营销用户也随之而来。恶意用户将商品信息在社交网络中大肆传播,诱导用户购买以从中获利。其行为严重污染微博社交环境,影响用户体验。如何从用户量巨大的微博平台中识别出恶意营销用户,一直是恶意用户识别领域需要精细化处理的问题。目前该领域的研究中大多采用集成学习算法。使用人工选取的特
随着国际贸易的发展与信息爆炸时代的到来,表单由于其简单直观的特点,在交通物流领域得到了广泛的应用,同时在金融和医疗等领域也变得越来越不可或缺,如物流表单、收据和简历等。随着各行各业的智能化与数字化改革,迫切需要实现多类型表单的自动化抽取,将表单中的信息保存成结构化数据便于留存与检索。以交通物流表单为例,在实际应用中,国际物流表单大多样式复杂且种类繁多,而目前投入应用的表单关键信息抽取算法通常只针对
本文结合太原市轨道交通2号线PPP项目实例研究运营组织优化的策略,研究以太原公共交通控股(集团)有限公司(以下简称:公交公司)和太原中铁轨道交通建设运营有限公司(以下简称:轨交公司)在太原地铁2号线开通后运营组织优化的实际博弈场景为依托,根据场景中轨道交通与常规公交的竞争和合作关系构建了运营优化博弈模型,利用实际运营数据演算模型参数,求解了在实际博弈场景下的Nash均衡解,验证了模型的合理性;利用