论文部分内容阅读
进入21世纪以来,由于互联网的发展迅速,我们已跨入了大数据时代。一方面享受到由此带来的生活水平的提升,另一方面也面临着一系列新的问题,尤其是信息安全问题,因此网络安全不容忽视。现如今,网络钓鱼便是一种典型的欺骗网民并从中获取利润的欺诈手段,给网民的财产造成了严重的损失。由此可见,有效遏制“钓鱼网站”是网络安全的重要保障。一般来说,钓鱼攻击者都是通过伪造的钓鱼网址去引诱网民进入钓鱼网站,进而实施诈骗,所以如何准确高效地识别钓鱼网址已成为网络信息安全的研究热点和重要问题。当今,国内外学者已对防御钓鱼网站进行了越来越细致的研究,但仍需要进行改进与深入。现如今,深度学习技术的出现对钓鱼网址识别方面发挥了极其重要的作用,大大提高了检测效率和准确率。然而,深度学习模型就如同黑盒一般,给它一个输入,则反馈一个决策结果,虽然结果较可观,但没人能确切地知道它背后的决策依据以及它做出的决策是否可靠,其模型内部的具体操作我们并不了解,这阻碍了深度学习的进一步发展和应用,所以其可解释性研究已迫在眉睫,成为了当今的热点和难点。钓鱼网址一般存活时间短且变化形式多样,人工提取URL(Uniform Resource Locator,统一资源定位符)的特征往往依赖于人的先验知识,提取的这些特征不一定能有效区分钓鱼网址,准确率往往不高,检测方法效率较低下,因此本文采用了一种无需人工提取特征,而直接学习URL字符序列的检测方法,具体如下,首先通过网络爬虫技术在https://openphish.com网站黑名单数据库中爬取了5000条钓鱼URL,并通过搜索引擎搜索钓鱼网址对应的品牌去爬取5000条正常URL,然后将这10000条带正反标签URL样本通过ASCII码表转化为一个二维矩阵,再利用神经网络嵌入层构建词向量,最后送入到几种循环神经网络模型中训练并进行比较,发现双向门控循环单元(Bi-directional Gated Recurrent Unit,BiGRU)神经网络可以学习序列化特征和长期依赖关系的特性,并捕捉URL字符序列之间隐含的依赖关系,当用于钓鱼网址识别时,可以大大提高钓鱼网站检测的准确率和查全率。另外,为了研究模型的可解释性,找出BiGRU神经网络模型分类的依据,本文先采用Lundberg和Lee在2017发表的论文《A unified approach tointerpreting model predictions》上提出的SHAP(SHapley Additive exPlanations)可解释法对BiGRU神经网络模型进行可解释性研究。再采用2016年顶级数据挖掘学术会议(KDD)上提出的LIME(Local Interpretable Model-Agnostic Explanations,局部可解读的与模型无关的解释)解释法对BiGRU神经网络模型进行可解释性研究,并对两种解释模型做对比分析。通过研究分析得到以下结论:1、从模型分类的性能上看:双向门控循环单元神经网络较其它的循环神经网络用于钓鱼网址识别时有更高的准确率,达到98%以上。2、从模型分类的判定依据来看:神经网络通过学习大量的URL数据集,发现其判定的依据主要是根据一个字符或者字符串的特征。3、从判定依据的特征来看:这些字符串的长短不一,且之间有包含关系,但它们对判定此条URL为正常网址还是钓鱼网址均有一定的作用,并且被赋予不同的特征贡献值。4、从两种解释方法的性能对比来看:从总体上来说,SHAP解释考虑到特征之间的相关性,适用范围更广,但具体到本文来说,针对本文没有人工提取特征的情况,用LIME解释会比SHAP解释得到更好地解释结果。