自然场景图片中任意方向汉字的检测与识别研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:prcjzzz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现今社会,手机拍照已经成为人们记录生活的主要方式,而一副图片里面除了包含物体信息以外,也往往包含着丰富的文本信息。如果能按照人们意向将手机拍摄的图片里面的文本信息提取出来,将非常有助于人们获取更加有效的信息内容。但是这里有诸多难点需要解决。从检测角度来讲,场景文本的方向是任意的,而不是固定的水平方向,并且它们的尺寸也大小不一,此外现今手机拍摄的照片像素常达上千万。这些都为模型训练的精度以及推断速度带来挑战。从识别角度来讲,不同于单纯的英文文本识别,英文只有26个字符,而汉字的类别诸多。其次,场景文本中汉字的字体类型各异,比如各类艺术字等。再加上文本信息复杂的背景,这些都为汉字文本的识别带来巨大困难。本论文选取的场景是室外街道诸多店面信息以及其他室外建筑、路牌上的文本信息。从实际应用的角度思考,有两个大的方向需要均衡兼顾。其一是从模型大小和速度方面考虑,我们希望模型能够越小越好,推断速度能够越快越好,以便在移动端部署和应用。其二是希望检测识别出来的效果能有较高的准确度。从以上两个实际应用的角度考虑,本论文完成的研究内容如下:1.检测模型的轻量化。本论文文本检测模型是在一种基于尺度渐进扩张算法的模型基础上进行优化的,采用原模型训练出来的模型大小达到700MB,这非常不利于模型的部署,因此在不降低模型精度的前提下,对该模型进行优化,将其主干网络替换成更加轻量化的网络结构,最终模型大小缩小了十多倍,推算速度也有明显提升。2.对任意方向稠密文本检测能力的提升。手机拍摄的图片像素非常大,只能通过缩放来训练然后检测识别,但是缩放后的图片难免导致原本小文本更加难以检测,采用原模型固定的设置虽然对任意方向稠密文本检测有所帮助,但是在手机拍摄出来的街道场景下,缩放后依旧有部分任意方向的稠密文本难以检测或者检测出现黏连的情况。基于此,本论文将其相应部分做优化,从而提升相应稠密类小文本的检测能力。3.文本识别部分通过生成仿真数据来增强模型鲁棒性。文本识别部分,由于室外店面、室外建筑以及路牌上的汉字文本信息种类繁多、字体各异,如繁体、艺术字等,另外文本的背景信息也丰富多样,如果仅仅通过训练集并不能覆盖所有情况,因此采用生成仿真数据的策略,来尽可能覆盖所有可能出现的文本信息,从而大大提升识别效果。
其他文献
钙钛矿一直是太阳能电池领域研究的热点。随着钙钦矿研究的不断深入,人们发现了其在发光领域的潜在价值,尤其是激光方向。然而目前光电子领域研究最为深入的钙钛矿为甲胺铅卤化物钙钛矿,这种有机无机掺杂的钙钛矿极易被水侵蚀。因此本文着重研究一种全无机钙钛矿结构——CsPbBr3/CsPbI3,相对于有机无机掺杂钙钛矿的性质更为稳定。此外,目前固态钙钛矿的生长大都依赖于云母衬底,这种衬底与材料结合紧密,不利于材
图像配准是图像处理的重要分支,在视频图像分析,遥感图像,医学运动图像和三维场景的特征恢复等领域应用广泛。在最近几年,刚性图像配准的研究工作已取得不少进展,但非刚性图
稀疏表示已广泛应用到图像处理中,例如超分辨率图像重建和目标检测等。然而,由于传统稀疏表示模型对信号进行降阶处理,致使信息损失,导致重建图像颜色失真,结构模糊。为解决这些问题,有研究将四元代数引入到稀疏表示模型中。四元稀疏表示模型仿照人眼对彩色图像各通道并行的处理方法,能有效提高算法对多通道图像的处理效果。本文将基于四元稀疏表示模型的图像重建技术拓展到两个新的应用领域——脑图谱重建和彩色图像显著性检
区块链技术作为加密货币底层的技术支撑,其去中心化、防篡改、可溯源等天然属性受到了各国政府和业界的不断关注。得益于智能合约,区块链的区块认证与交易执行可在无第三方支
随着科技的发展,航天、汽车电子、智能电网等各个领域,迫切需要一种在高辐射、高功率密度、高压高频等环境下仍然能够正常工作的功率器件。在现有的半导体功率器件之中,碳化
随着区块链技术的不断发展,区块链在现实业务场景中的应用也在不断增多。但由于区块链本身的技术特点,每一个项目都是独立的封闭式区块链网络,链与链之间无法进行数据交流,形
随着移动互联网、车联网、智慧城市等新一代信息服务的不断发展,各行各业对轨迹数据的需求越来越高。轨迹数据包含丰富的时空信息,准确及时地发布轨迹数据能够为位置推荐、交
随着物联网和大数据时代的到来,信息技术高速发展。智能设备呈现出爆炸性增长,在给人们的生活带来巨大便利的同时也面临着严峻的信息安全问题。基于软件的加密方式面临着容易被攻击破解的风险,已不能满足当前信息安全的需求。基于硬件的加密方式一般利用物理的随机性产生加密密钥,硬件加密方式具有较高的防破解能力,因而受到了国内外研究机构的广泛关注。基于硬件的信息安全器件包括物理不可克隆函数与真随机数发生器等。物理不
本文针对三维点云数据的不均匀问题以及三维场景的语义分割问题,通过对三维点云数据的采集原理以及相关处理技术进行深入理解,提出了基于二维图像灰度的插值算法和三维点云语
随着计算机视觉技术的不断发展,视频图像已经成为传递信息的重要媒介,如何从海量的视频数据中高效率地提取目标的需求与日俱增,背景减除作为实现目标检测的关键技术,已经成为