论文部分内容阅读
文字作为语言信息存在于人们生活的方方面面,根据拍摄的场景图像,获取其中的文字信息有助于人们对自然场景的理解、描述和分析,具有重要的社会价值和意义。然而自然场景的复杂,场景中文字的多样,给文本检测的准确性带来了极大的挑战。传统机器学习方法的逐步处理,导致了错误的累积和性能上的瓶颈。而近年来深度学习的发展,为文本检测的研究带来了一大曙光。基于以上背景知识的研究,本文重点分析研究了基于深度学习的自然场景文本检测算法。本研究内容包括:(1)小尺度文本在经过深度网络处理后,其特征信息会变得更模糊,针对这一问题,我们设计了一种用于文本检测的多尺度粗检测子,它融合了深度网络中浅层和深层信息、局部和全局信息,在像素级别上对原始图像的每个像素进行分类,获取能体现文本信息的显著性模板图。粗检测子适用于检测小尺度的文本。(2)现有的基于深度学习的文本检测方法未考虑检测对象的相互关系,检测得到的文本包围框有冗余,针对此类问题,我们提出了一种以字符或字符部分为基本对象的细检测网络,用融合上下文信息的细条形anchor的形式来检测一系列字符序列。在光照等干扰下,细检测子仍能检测出完整的文本。(3)针对现有的方法对文本检测存在的定位不精确、多种尺度文本混合难以检测等问题,我们提出了一种级联式的卷积神经网络,设计了中间处理机制,结合粗检测子和细检测子的优势,以由粗到细的方式,更加精确地定位出每一行文本位置。通过分析、研究与实验,我们的算法在精细定位挤压式文本行,检测小尺度的文本和检测有部分干扰的文本方面,有较强的鲁棒性、泛化能力和抗干扰能力。