论文部分内容阅读
随着人工智能的飞速发展,基于深度学习的场景文字识别方法被越来越多的人接受并使用,识别效果也越来越突出,逐渐成为计算机视觉领域研究热点内容之一。图像复杂的背景使图像特征中存在大量的无用信息,导致了传统OCR(Optical Character Recognition )的识别率低,满足不了客户的需求,所以本文将利用卷积神经网络来实现图像文字的检测和识别。
由于新疆维吾尔自治区重大科技专项“马产业科技创新平台建设”中身份验证模块需要对单位授权委托认证,根据此项目的需求展开了此次研究。本文以最新版的营业执照作为研究对象,但是营业执照图像中存在光照不均匀、运动模糊、以及背景复杂等问题,因此本文的主要研究内容是通过卷积神经网络准确识别出营业执照图像中的目标文字。目前对背景复杂的图像文字识别技术比较成熟,在身份证、火车票、银行票据、发票等方面应用比较广泛,但是对营业执照文字识别的研究甚少,开源的文字识别模型识别率较低,若直接用于项目中实用性不佳,因此对现有的模型进行优化和再训练,来提高营业执照的文字识别率。
关于深度学习来实现文字识别的方法有很多,每种算法都有一定的优点和缺点,本文将重点介绍目前比较流行的文字检测和文字识别算法,分别是CTPN(Connectionist Text Proposal Network)、CRNN(Convolutional Recurrent Neural Network)、DenseNet(Dense Convolutional Network),并设计了基于CTPN+CRNN和基于CTPN+DenseNet的文字识别模型,实现了端到端的图像文字识别,两个模型都已封装好,可根据使用数据的不同,在Demo中进行切换使用。首先手动标注了2500张营业执照数据,对开源的CTPN网络进行了再训练,且AP值为94%。经过测试发现CTPN对营业执照中字体很小的文字会出现漏检,还有当出现多行文字时每一行文字没有被分开检测,为了解决这个问题,对营业执照进行版面分析,然后进行区域分割,得到10个子图像,这样就很好的解决了上述的问题,且经过上述处理后文字检测的AP值达到98%,经过处理后CTPN模型的AP值提高了4%。然后使用541126张不定长字符数据集对CRNN模型进行了再训练。最后确定了更适合于营业执照的识别模型是基于CTPN+CRNN的文字识别模型,最终文字识别率达到96%,对营业执照文字识别的方法具有一定的借鉴意义。
由于新疆维吾尔自治区重大科技专项“马产业科技创新平台建设”中身份验证模块需要对单位授权委托认证,根据此项目的需求展开了此次研究。本文以最新版的营业执照作为研究对象,但是营业执照图像中存在光照不均匀、运动模糊、以及背景复杂等问题,因此本文的主要研究内容是通过卷积神经网络准确识别出营业执照图像中的目标文字。目前对背景复杂的图像文字识别技术比较成熟,在身份证、火车票、银行票据、发票等方面应用比较广泛,但是对营业执照文字识别的研究甚少,开源的文字识别模型识别率较低,若直接用于项目中实用性不佳,因此对现有的模型进行优化和再训练,来提高营业执照的文字识别率。
关于深度学习来实现文字识别的方法有很多,每种算法都有一定的优点和缺点,本文将重点介绍目前比较流行的文字检测和文字识别算法,分别是CTPN(Connectionist Text Proposal Network)、CRNN(Convolutional Recurrent Neural Network)、DenseNet(Dense Convolutional Network),并设计了基于CTPN+CRNN和基于CTPN+DenseNet的文字识别模型,实现了端到端的图像文字识别,两个模型都已封装好,可根据使用数据的不同,在Demo中进行切换使用。首先手动标注了2500张营业执照数据,对开源的CTPN网络进行了再训练,且AP值为94%。经过测试发现CTPN对营业执照中字体很小的文字会出现漏检,还有当出现多行文字时每一行文字没有被分开检测,为了解决这个问题,对营业执照进行版面分析,然后进行区域分割,得到10个子图像,这样就很好的解决了上述的问题,且经过上述处理后文字检测的AP值达到98%,经过处理后CTPN模型的AP值提高了4%。然后使用541126张不定长字符数据集对CRNN模型进行了再训练。最后确定了更适合于营业执照的识别模型是基于CTPN+CRNN的文字识别模型,最终文字识别率达到96%,对营业执照文字识别的方法具有一定的借鉴意义。