论文部分内容阅读
现实中,网络是人们获取新闻的一个重要渠道,不少新闻软件会根据用户的喜好推送相应的文章,因此需要对文章进行”描述”即标注文章的画像。传统的方法大都是人工标注,这样做成本过大、可能造成疏漏。据统计,每篇文章中几乎都会有至少三幅自然场景图像,这些图像的文字信息可以很好地帮助我们”理解”文章内容,这为标注文章画像发挥着重要作用。因此,本论文将光学字符识别(Optical Character Recognition,OCR)技术用于识别文章图像中的文字,并提出了一套全新的算法,本论文的主要工作内容如下。1、面向文字检测与识别的复杂自然场景图像预处理。自然场景图像大小不一,不同图像中文字位置各异。因此,首先对图像进行尺度的规范,之后用最大稳定极值区域算法(MSER)对图像对比度最大的通道进行预处理,选出可能是文字的区域,最后对选出的区域进行区域去重。2、设计并搭建了一个用于自然场景图像的文字检测网络模型。针对图像特点,对预处理步骤得到的图像区域设计了一个检测网络,用于识别文字区域并去除非文字区域。该网络的训练数据总量为12万,其中4万正样本,8万负样本。它是一个浅层网络,由卷积层、池化层、全连接层以及Softmax层组成,它可以在保证运行效率地情况下最准确地对文字区域和非文字区域进行二分类。实验结果表明该模型的准确率为93.5%,误检率为2.5%,召回率为88%。3、设计并搭建了一个用于自然场景图像的文字识别网络模型。对检测得到的文字区域进行行规并,然后设计了一个深度神经网络用于光学文字识别。该网络的训练数据总量近800万,涵盖14300个汉字维度。该网络由CNN串联RNN构成,其中CNN可以感知文字的形状,而RNN可以学习上下文的关系。整个网络由卷积层、池化层、Batch Normalization(BN)层、Long Short-Term Memory(LSTM)层、全连接层以及Connectionist Temporal Classification(CTC)层组成。实验结果表明该模型的准确率是91.97%。并且,本论文的文字识别采用无词库(Non-Lexicon)的方式,不受词库大小的限制。所用识别数据使用改进的GitHub开源工程进行人工生成,因此无需人工标签,并且理论上可以无限生成。