论文部分内容阅读
藏文现代印刷物是藏文化资源的重要组成部分,藏文现代印刷物的版面中文本行包含了许多重要的信息,有效的检测出藏文版面中的文本行区域是实现藏文化资源数字化保护的重要一步。本文采集到的藏文现代印刷物版面分为藏文现代图书和自然场景藏文版面,鉴于传统的检测技术还不能有效解决藏文现代版面分辨率低下,字体样式多变的问题,如何有效的实现藏文现代印刷物版面的检测,本文采用两种深度神经网络的目标检测方法,分别实现对藏文现代印刷物版面中的文本行区域的检测。主要贡献如下:第一部分,为了解决藏文现代印刷物版面中各个水平和近似水平的文本行区域的检测,采用了基于Faster R-CNN的藏文现代印刷物的版面目标检测算法,先详细介绍了Faster R-CNN检测网络结构和算法原理,其主要思想是当区域建议网络提取到感兴趣目标区域,再进入Fast R-CNN网络得到藏文版面整体的特征图,最后Faster R-CNN判断出感兴趣区域属于哪个类别,在Res Net-50网络结构中进行数据集训练,实现文本区域的分类和定位。本文通过设置anchor为四种尺度,五种比例的情况,满足特征图上每个像素点可以生成20个尺度大小不同的anchor框,区域建议网络共生成1000个感兴趣的目标区域。实验表明,改进后的Faster R-CNN检测算法相比原始的Faster RCNN在藏文现代印刷物数据集上有更好的检测效果。在不同规模的藏文现代印刷物数据集上分别进行实验,都具有一定的检测效果。由于自然场景中的藏文版面本身的复杂性,自然场景中的藏文版面数据集上的检测效率比藏文现代图书数据集上的检测效率低,但整体上检测效果比较理想。第二部分,本文还采用了基于SSD藏文现代印刷物版面检测算法,实现大小比例不同的文本行的检测。首先将Res Net-50网络中的全连接层换为卷积层,在此基础上增加了辅助卷积层,通过利用第3到7层卷积层中的特征图,共提取得到五个尺度的特征图。其次对提取到的特征图上每个像素点分别设置生成五种尺度和五种比例大小不同的先验框,最终每个像素点共可以生成25种大小比例都不同的先验框,与真实框进行匹配,得到每个先验框对应的类别置信度和坐标位置,最后判断其对应的预测框是否为文本行目标,并对其位置进行回归,使其最大可能的接近真实框。经实验发现,该算法对藏文现代图书版面和自然场景藏文版面都达到了良好的检测效果。