论文部分内容阅读
验证码图片识别作为光学字符识别的一个重要新兴分支,无论是在促进网络安全的发展还是提高用户使用网络的智能程度方面都发挥了重要的作用。随着网络的进一步发展,网络给人们提供了丰富的资源的同时,为了保证网络的安全性,现在很多网站都利用验证码技术来限制用户的操作,所以本文的目的在于利用OCR技术实现对验证码的字符识别,意图是实现一个智能的下载器,可以跳过防盗链的验证码这一过程,实现网络的智能下载功能。本文对基于验证码的防盗链下载系统和面向weh代理的验证码图片识别系统作简单的描述,重点将放在对验证码字符的识别上。本文实验所采用的验证码分两种,一种是本文针对某特定网站进行设计的智能下载系统中使用的,特点是只有数字,而且数字比较工整;另外一种验证码图片的特点是带有很多干扰象素,并且字符之间会有粘连,因此要在识别率上能有较高的正确率,在预处理上必须解决掉上面的两大问题。针对噪声象素,本文采用了中值滤波去噪达到了理想的效果。由于实验所采用的验证码图片中的单个字符本来就有一定的倾斜,而且经过前期的处理后字符之间有粘连,对于一般的分割算法,很难达到即能分割出投影交叉实际不粘连的字符,又能很好的分割出相互粘连的字符,本文借鉴了几种分割算法,分析了它们的优缺点之后,融合了其中的几种算法,较好地解决了本文实验所采用的验证码图片的粘连字符分割。识别是实现验证码字符识别的最后一步,由于本文实验所采用的验证码图片字符,在提取很多样本的基础上发现是很规则的,所以采用了基于Hausdorff距离的模板匹配,也取得了比较好的识别结果。