基于网格特征和LDA的验证码识别

来源 :中山大学 | 被引量 : 0次 | 上传用户:RSH1987
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的普及,网页成为信息的重要载体。不少网站为了防止用户利用机器人自动注册、登录、恶意发文,相继采用了验证码技术。从信息安全对抗的角度,合理地运用验证码识别技术并实现其自动化,具有很好的应用价值。 本文主要研究验证码自动识别技术,利用Visual C++6.0平台构建一个验证码识别原型系统。文中使用的验证码图像来自某实际论坛,可以利用网络下载工具大量获取样本图像。 为了能把验证码图像的字符前景和背景清晰地划分开,本文分别选用了最佳阈值法和人工设定阈值法对验证码图像进行二值化。实验结果表明:只要选择合适的阈值,使用人工设定阈值法比最佳阈值法效果更佳,基本能够将字符的特征信息从含大量干扰噪声的背景中抽取出来。 验证码图像经过二值化处理后仍然存在少量孤立的噪声点。经实验测试,使用中值滤波器并不适用于在目标狭长的字符图像上去除噪声。因此,本系统采用基于递归算法的去除离散点方法消除噪声。实验结果表明,这种算法可基本消除验证码图像存在的孤立噪声点,同时保留了字符的特征。 针对验证码图像字符间没有粘连、且较为清晰的特点,本系统采用了扫描字符边界的分割方法。这种分割算法能沿着字符边缘切分,实现了较精确的分割。 模式的表示取决于特征的提取方式,选择和提取稳定而又便于表示的特征向量是本系统的核心之一。本文提出了简单的字符特征提取方法:仅选用了一种网格灰度特征; 然后对该特征进行线性鉴别分析(LDA,Linear discriminant analysis)变换,使得字符信息集中到能够最大限度地鉴别且维数尽可能小的特征向量上;最后将特征向量输入最小距离分类器进行判别分类,从而完成字符识别过程。通过提高训练样本数,有效解决了形近字符识别率低的问题,取得了很好的识别效果。本文在Visual C++6.0平台上实现了针对某论坛验证码的实时识别原型系统。通过对该论坛验证码字符样本库的实验,结果表明,本文实现的原型系统取得了99.4%的识别率,并且明显具有程序结构简单、节约存储空间、识别速度快等优点,基本上能够满足对验证码自动识别的要求。
其他文献
摘要:词汇教学是初中英语教学的重点也是难点。在教学中要根据学生的具体情况和学习内容选择适当的教学方法,努力扩大学生的词汇量,培养学生运用所学词汇的能力,提高学生的英语综合水平。  关键词:初中英语;词汇教学;英语教学  词汇是学习语言的根本,学习英语少不了词汇的记忆。英语词汇的记忆始终是困扰英语学习者的难题。对从小学升入初中、接触英语不多的初中学生来说,如果仅凭学生自己摸索出有效的词汇记忆的策略,
当前,实验物理及工业控制系统(Experimental Physics and Industrial ControlSystem,EPICS)是在国际工业界和大型物理装置中较为成功的大型控制系统,它广泛应用于加速器、同步辐
黄土高原由于强烈的水土流失其生态系统正处于极度退化的状态,加速该地区退化生态系统的恢复与重建势在必行。地处子午岭南端的马栏林区是黄土高原目前保存比较完整的天然次生
随着网络技术的发展,越来越多的应用开始采用B/S的形式。然而由于浏览器处理能力有限,不能为用户提供即时快速的响应,不能实现许多C/S应用程序中常见的便捷功能。这一直是阻碍B/
目前,人脸识别,虹膜识别,掌纹识别技术等的实验室研究已不能满足日益增长的安全需求,亟需研制实用的全自动身份鉴别系统。但以往的识别算法处理的图片是已经获取好的图片,前提假设
内波是海洋中常见的自然波动现象之一。内波生成和传播特性的现场测量研究十分困难,利用合成孔径雷达(SAR)遥感研究海洋内波成为近年来海洋遥感中的一个热点。本文在SAR海洋内
本文通过对荣华二采区10
期刊
近年来,随着移动通信的普及,用户对移动通信业务的需求也在不断改变。移动通信业务已经从传统简单的通话服务、数据传输到了现在的数字多媒体业务。传统的单一网络已经无法满足
在矿井中构建一种不依赖于骨干网的无线通信系统,是解决矿井安全监测监控问题的有效方法。即使在塌方、冒顶、火灾甚至爆炸的时候,这种无线通信系统依然能发挥作用。随着无线传
学位
脉冲多普勒雷达是一种典型的相参体制雷达,传统的非相参干扰机不能满足干扰脉冲多普勒雷达的要求。数字射频存储技术对雷达脉冲信号进行高速采样、存储、调制和重构,能够对脉冲