论文部分内容阅读
文字本身包含了丰富的语义信息,除了可以作为人们沟通的媒介外,还广泛存在于自然场景中,用于帮助人们理解其所处环境,大楼的标识牌常被用于导航就是一个很好的例子。同样在计算机领域,图像中的文字也是计算机理解图像内容的关键。比如检测与识别图片中的水印,工业仪表上的读数,道路上的路牌,汽车车牌,商场中不同物品的价格标签等。这些自然场景下文字检测与识别的能力对于实现无人驾驶,构建智慧城市,提高人们的工作效率都大有帮助,因此检测和识别自然场景中的文字一直是一个重要的研究问题。不同于文档扫描件,自然场景中的文字具有更多表现形式。其没有标准的版式,固定的字体,固定的语言,另外图片质量也无法得到保证,图片的背景还会对文字产生干扰。因此尽管检测和识别自然场景下的文字具有广泛的应用场景,也吸引了众多学者研究了很长时间,但是这一问题现在仍然具有较大的困难和挑战。本文针对自然场景中文字的检测和识别两方面进行研究。探讨更加鲁棒的神经网络结构以提升自然场景文字检测的查准率和查全率,探讨更具普适性以及更加鲁棒的文字识别方法。具体而言,本文的研究包括以下几个方面。1.基于多尺度特征提取的文本检测方法:由于文本本身具有多尺度、多比例等特点,所以不同于通用物体检测,其对于尺度更为敏感。因此本文提出一种将多尺度特征提取融入到神经网络设计中的文字检测方法。通过引入Inception结构,该方法的网络在特征层上具有了更多的尺度信息,使得整个网络在面对文本尺度剧烈变化时具有更强的鲁棒性。该方法在多个数据集上进行了测试,实验表明该方法可以检测多尺度的自然场景文字,并且可以有效地提高查准率和查全率。2.基于特征金字塔的文本检测方法:针对文本的尺度问题,本文提出了将特征金字塔结构添加到神经网络设计中的文字检测方法,使得不同尺度的文本在神经网络的不同特征层上进行训练与测试。实验表明该方法可以检测多尺度的自然场景文字,并且可以有效地提高查全率。3.基于多尺度特征提取与特征金字塔的文本检测方法:针对文本的尺度问题,本文提出了基于多尺度特征提取以及特征金字塔的文字检测方法。使得网络在面对文本尺度变化时,具有更强的鲁棒性。实验表明该方法的查全率达到了业界领先的水平。4.基于注意力机制的文字识别方法:针对现有文字识别方法需要固定输入图像尺寸的问题,受语言模型启发,本文提出了将具有注意力机制的编码器-解码器结构应用于文字识别的方法。实验中本文将该方法与基于多尺度特征提取与特征金字塔的检测方法相结合,应用于实际的工程项目当中,达到了优异的识别精度。