论文部分内容阅读
网络钓鱼攻击已经成为当前网上交易安全的一个重大威胁,其对电子商务的发展造成了很大阻碍,因而对钓鱼防范的研究成为网络安全领域的热点问题。在众多钓鱼防范技术中,利用URL进行识别由于其简单高效成为一项关键技术。目前大多数基于URL的反钓鱼产品主要通过建立URL黑名单(白名单)数据库对检测网页进行排查,虽然具有一定的检测效果,但是该方法具有一定滞后性,不能够对没有记录在案的URL进行识别。解决该问题的关键在于使钓鱼识别工具具有学习推断的能力,因此本文采用机器学习方法对钓鱼URL特征进行了深入研究,并且对相应学习算法进行了详细分析与适用性改进,主要工作如下:
⑴URL特征建模。对钓鱼URL特征进行了归纳,对不同类型的特征进行了分组,并建立了适用于模式识别的URL特征模型。
⑵域名模仿识别。对于钓鱼URL中普遍存在的域名模仿现象,提出了基于动态规划思想的模糊域名匹配算法,通过计算合法域名与URL的匹配值得到域名相似度,进而得到URL的域名特征。
⑶可疑词提取。提出了基于广义后缀树的关键词提取方法,可以有效的统计识别钓鱼URL中出现频率较高的关键词,对URL中的词汇进行匹配形成了若干布尔值形式的词汇特征。
⑷增量学习算法研究。在传统支持向量机(SVM)基础上提出了一种基于反馈的增量学习算法,用于解决在线学习问题。该算法在空间和时间上具有高效率且有着良好的稳定性。实验部分验证了域名识别、关键词提取的有效性,通过不同分类算法之间的对比确立了支持向量机在钓鱼URL识别上的优势,基于反馈SVM的增量样本试验给出了分类器在线升级的解决方案。最后,设计并实现了基于学习引擎的网络钓鱼检测系统。该系统建立在本文对钓鱼URL特征分析以及分类算法研究的基础之上,力求在多方合作的前提下达到对用户网上交易的最大可能保护。