基于机器学习算法的钓鱼网站检测系统

来源 :东南大学 | 被引量 : 0次 | 上传用户:qghlxj1399
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络钓鱼攻击已经成为当前网上交易安全的一个重大威胁,其对电子商务的发展造成了很大阻碍,因而对钓鱼防范的研究成为网络安全领域的热点问题。在众多钓鱼防范技术中,利用URL进行识别由于其简单高效成为一项关键技术。目前大多数基于URL的反钓鱼产品主要通过建立URL黑名单(白名单)数据库对检测网页进行排查,虽然具有一定的检测效果,但是该方法具有一定滞后性,不能够对没有记录在案的URL进行识别。解决该问题的关键在于使钓鱼识别工具具有学习推断的能力,因此本文采用机器学习方法对钓鱼URL特征进行了深入研究,并且对相应学习算法进行了详细分析与适用性改进,主要工作如下:   ⑴URL特征建模。对钓鱼URL特征进行了归纳,对不同类型的特征进行了分组,并建立了适用于模式识别的URL特征模型。   ⑵域名模仿识别。对于钓鱼URL中普遍存在的域名模仿现象,提出了基于动态规划思想的模糊域名匹配算法,通过计算合法域名与URL的匹配值得到域名相似度,进而得到URL的域名特征。   ⑶可疑词提取。提出了基于广义后缀树的关键词提取方法,可以有效的统计识别钓鱼URL中出现频率较高的关键词,对URL中的词汇进行匹配形成了若干布尔值形式的词汇特征。   ⑷增量学习算法研究。在传统支持向量机(SVM)基础上提出了一种基于反馈的增量学习算法,用于解决在线学习问题。该算法在空间和时间上具有高效率且有着良好的稳定性。实验部分验证了域名识别、关键词提取的有效性,通过不同分类算法之间的对比确立了支持向量机在钓鱼URL识别上的优势,基于反馈SVM的增量样本试验给出了分类器在线升级的解决方案。最后,设计并实现了基于学习引擎的网络钓鱼检测系统。该系统建立在本文对钓鱼URL特征分析以及分类算法研究的基础之上,力求在多方合作的前提下达到对用户网上交易的最大可能保护。
其他文献
随着网络规模的进一步扩大和网络软硬件设施的日益复杂,人们对网络管理系统的需求也变得越来越迫切,正确快速的网络拓扑信息能直接有效地为网络管理员提供整体性的网络结构和
随着经济全球化和知识经济时代的到来,市场竞争日益激烈,企业要想更好更快地发展,就必须在增加市场份额的同时力争达到成本最小化,而在企业成本中,库存成本和运输成本占了很
随着近年来互联网技术的日趋成熟和应用范围的不断扩大,以文本形式存在的网络资源开始与日俱增。面对海量的信息,人们出现了“信息迷失的现象”,将海量信息根据内容进行归类
信息隐藏作为保障信息安全的新技术,吸引了国内外众多学者的关注,己成为信息安全领域的研究热点。保证信息安全的传统方法是加密技术,加密技术是对需要保密的信息进行加密,由
随着技术的革新和穿戴设备的发展,目前智能穿戴设备逐渐被广泛应用在军事和医疗等各个领域,智能穿戴设备不断引领着新的潮流,改变着人们的生活,但是其所处理的应用场景却复杂
随着计算机和网络技术的不断发展,企业信息化水平得到了很大的提高。20世纪80年代至90年代,各大企业不断开发自己的应用系统,人们对软件开发的认识从单一系统的完整性和一致
随着信息技术的不断发展,一些企业在生产过程中积累了大量的历史数据,这些历史数据中蕴藏着大量的、有用的、未知的知识。如何充分利用这些历史数据,从中发现与生产相关的有
巷道是矿井生产的“动脉”,巷道支护不仅关系到矿井生产的安全,同时也要花费巨额的成本。近年来,随着煤矿开采深度的增加,巷道支护处于十分艰难的境地,高地应力、软岩等深部
随着科学技术的发展以及现代社会工业自动化程度越来越高,视频监控技术的应用范围已经从最初的工农业生产,交通运输,安防等行业扩大到一些对视频监控有特殊要求的场合,而且对
随着人类基因组计划的成功实施和现代分子生物学的蓬勃开展,给人们留下了海量的生物学数据,并把人们带入了后基因组时代。由于后基因组时代生物学数据的大规模性,及数据之间