场景文字识别技术研究及其在盲人视觉辅助中的应用

来源 :浙江大学 | 被引量 : 0次 | 上传用户:cttc_tom
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视障人士由于缺乏有效的助盲工具,在出行社交等方面面临诸多困难。视障人士感知文字类高级语义信息的需求可以借助文本识别技术来实现。然而,现实生活中的文本信息背景复杂,分辨率低,字体多变,排列不规则,使得场景文本检测与识别技术很难实现。本文基于深度神经网络技术,研究视障人士关注的涵盖文本的关键对象的检测与识别系统,同时针对倾斜文字设计并优化文本检测网络,开发涵盖中英文混杂字符的文本识别网络。基于物体识别的相关技术,借助预选框回归和多尺度检测,设计感兴趣对象(如公交车、书本、水平文本框几类)识别网络,端到端地预测出对象的位置、类别信息。文本检测网络针对倾斜文字框检测的困难,设计倾斜四边形回归方案,关注文字的纹理特征,提高特殊类型文本框检测的精准度。文字识别针对中英文混杂字符,利用上下文特征,为文本框实现可变字符长度的文字识别技术。在资源和精度权衡等方面的实验,证明了本文的算法在标准数据集上取得有竞争力的测试结果。为解决真实场景中使用所存在的问题,本文还分别研究多帧融合技术于文字识别前做图片特征增强,引入轻量级网络应对计算资源限制和实时性要求。总的来看,本文所设计的算法能抑制文本空间变换(平移、缩放、旋转等)的影响,为场景文本描述提供了良好的准确性和鲁棒性。以上技术搭载在智能穿戴设备中,帮助视障人士检测并描述即将到来的公共汽车的路线号,手边的书本名,店铺的招牌名等等场景文本内容及文本所处的背景,并通过语音播报结果,实现丰富的场景描述和不同场景的优良适应性。本文字识别系统可与课题组的其他导航、避障等视觉辅助算法相结合,为视障人士提供更精确、高效的室内外出行辅助。
其他文献
朱执信是近代资产阶级革命民主派中一位非常重要的革命家和思想家。在朱执信短暂的一生中,始终坚定地参与资产阶级的革命事业、向先进青年宣传民族解放的光辉道路。朱执信的
油藏地质特征是精细油藏描述的重要部分,同时也是油藏后期改善开采情况的核心基石。姬塬油田属于鄂尔多斯盆地六个构造区之一的陕北斜坡,区域地理上处于陕西省定边县与宁夏回
随着“一带一路”政策的推行,我国对沿线国家的对外投资规模逐年攀升。然而,一直以来沿线国家的投资环境却并不乐观,经济发展水平相对落后、法治体系尚不完善,加之东道国政府
营运资金是企业经营管理的核心,决定着企业的运营效率以及盈利水平。营运资金管理的研究始于20世纪90年代,近年来,随着金融危机的影响,营运资金管理越来越受到重视。当前营运资金管理从以效率为中心,简单有限的科目管理扩展到供应链效率、运营模式、渠道控制、等多角度的深化管理,即以最低的成本维持公司的运营,实现企业运营效率以及盈利水平的提升。伴随互联网商务的崛起,传统的零售业在面临市场经济低迷、国民经济下调
摘 要:本文旨在探究情景模拟法在高职护生护理实践教学中的应用效果。选取我校66名高职护理学生作为本次研究对象,学生所处年级为护理班二年级,将学生分为两组,观察组和对照组(n=33),两组学生均进行母婴护理的实验课目。其中传统的单一模型法教学应用于对照组,角色扮演、情境教学法应用于观察组,观察对比两组学生的理論考试、技能考核成绩以及教学效果问卷调查结果。  关键词:情景模拟法;高职护生护理;实践教学
自党的十八届三中全会将普惠金融定为国家战略以来,近年来,我国普惠金融取得了良好的发展成效。G公司从成立之初开始一直积极探索普惠金融的服务模式,依托金融科技逐步构建起开放式集合科技借款服务体系,连接借款人、增信方、资金方,向增信方和资金方输出基础信贷评估服务,为借款人提供多元借款服务解决方案。公司历经十多年发展,已成长为行业内的代表性企业。但随着公司业务规模的增长,产品模式的创新,公司接入的资金方越
本文从云南省地方高校的实际教学情况出发,分析大学英语写作教学存在的问题,并提出提高学生写作能力的教学策略。
对于高校教育而言,怎样利用好大数据对学校教育进行更好的管理成为当下人们关注的焦点。本文对大数据时代高校教育管理思维转向进行探讨,并针对目前大数据背景下的高校教育管
今天,伴随生产力发展,物质财富极大丰富,导致大部分人陷入疯狂的物质追求中。过度包装、资源的过度浪费现象越来越多,除了商品本身质量提升外,如何制作出符合环保理念的包装、如何实现将包装设计的实用性、审美性、环保性相结合也成为了当今包装设计领域发展和创新的新课题。中国民间一直流传着“敬天惜物、物尽其用”之说,在我国的传统文化思想中,人和自然是息息相通的整体、人应该对万物存有感念,这既包括对万物的爱护又包