文本类验证码识别方法研究

来源 :西北大学 | 被引量 : 0次 | 上传用户:bw133934
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
验证码被广泛应用于网站登录、注册等环节,用来增强身份验证和防止来自计算机程序的自动攻击。其中文本类验证码由于密码空间大、交互方式简单等特点被大多数主流网站使用。目前,为了增加计算机程序对文本类验证码自动识别的难度,设计时普遍将复杂干扰信息、字符扭曲、旋转和粘连、不同类型字体等安全性特征随机组合使用。由于组合了多种安全特征,传统的验证码识别方法对该种验证码的识别率非常低甚至失效。针对此类文本类验证码,本文提出了一种基于生成式对抗网络(Generative Adversarial Networks,GAN)的去干扰法生成去除干扰信息的验证码,然后根据生成验证码的不同特征,设计了如下三种不同的识别方案:(1)对于空心字符验证码,使用本文去干扰法在有效去除干扰信息的同时将空心字符填充为实心字符并拉伸字符间距,本文对此类验证码采用基于生成式对抗网络的分割识别方案。通过本文优化过的分割算法对拉伸后的验证码进行有效分割,再使用卷积神经网络(Convolutional Neural Network,CNN)对分割后的单个字符进行识别。(2)对于实心字符验证码,使用本文去干扰法有效去除干扰信息后,对此类验证码采用基于迁移学习的整体识别方案。根据真实验证码去除干扰信息后的文本分布特征生成大量合成验证码,以此作为训练样本,采用CNN训练出预训练模型,再使用少量真实验证码在预训练模型的基础上进行迁移训练。迁移过程中保持预训练模型前两层参数不变,对其他层参数进行传导更新。最后使用该迁移模型对真实验证码进行预测。(3)对于实心字符文本较长且内容为常见单词片段拼接的验证码,使用本文去干扰法有效去除干扰信息后,对此类验证码采用基于修正模型的整体识别方案。以大量合成验证码作为训练样本,采用CNN训练出识别模型。再使用少量真实验证码通过识别模型得到预测结果,将预测结果和真实结果使用自然语言处理领域拼写纠正的方法训练出一个修正模型,通过该修正模型来修正识别模型预测出的结果。在难以以低成本大量获取真实验证码的情况下,本文设计了程序合成验证码对网络进行训练,训练成本远低于现有其他方法且训练效果良好。最终的实验结果表明,本文提出的方法能够成功的识别Microsoft、Wikipedia、百度、支付宝、新浪等世界主流网站的验证码,最佳情况下的识别率能够比传统方法提高63.7%。
其他文献
2005年《中国教育报》连续发表《洋思现象解读》等文章,笔者翻阅,感触颇多。首先想到的便是:学洋思,学什么?
广播电视节目分为不同种类,文艺类节目和新闻类节目是其中两个重要的分支,两者功能各不相同,一直以来在各自领域相对独立发展。但随着社会发展的深入,广播电视文艺节目为了满
文章分析了折弯机工作要求,对V型自由折弯板料所受的折弯力进行计算,设计出满足工作要求的折弯机气动系统,并进行分析,计算出气缸相关参数,为后续开展常用机械设备气动系统设计提
由<解放军医学杂志>编辑部和全军普通外科专业委员会危重病学组联合组织,成都地奥集团赞助的战、创伤休克复苏治疗高层研讨会于2005年7月5日~9日在成都召开.参加本次会议的有
用Astrand列线图法对18~25岁大专学生男211人、女86人进行测试,间接推算其最大吸氧量,并对结果进行了分析研究,还通过对其测试数据的统计学处理,用离差法制定了我国青年男、女
桥梁暴露于大自然中,日晒雨淋的同时承受日渐增长的交通载荷,桥面铺装在环境和载荷耦合作用下受力状况复杂,然而在桥梁设计中桥面铺装往往不作专门计算,桥面铺装层在设计年限
目的探讨幽门螺杆菌(Hp)与消化性溃疡合并出血(PUB)的关系及PUB临床特点。方法回顾性分析233例PUB患者的一般情况、Hp感染及分型、服用非甾体类消炎药(NSAIDs)史、入院血红蛋白(Hb)值
以北京地铁新机场线新发地站~草桥站区间隧道为工程依托,介绍了砂卵石地层新建隧道近距离上跨既有盾构隧道的施工技术。暗挖区间隧道施工时,需要破除竖井井壁,为避免该处土体
<正> 第一条(目的和依据) 为了防治扬尘污染,保护和改善大气环境质量,根据《中华人民共和国大气污染防治法》、《上海市实施(中华人民共和国大气污染防治法>办法》等法律、法
小学语文教学中若有强烈的资源意识,努力开发、积极利用地域资源中的语文课程资源,将为学生学习语文开拓出更加宽广的天地。本文以"石文化"为主题,对地域资源进行整合,合理移