网络钓鱼网址识别的深度学习模型及可解释性研究

来源 :云南财经大学 | 被引量 : 0次 | 上传用户:cdy516
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
进入21世纪以来,由于互联网的发展迅速,我们已跨入了大数据时代。一方面享受到由此带来的生活水平的提升,另一方面也面临着一系列新的问题,尤其是信息安全问题,因此网络安全不容忽视。现如今,网络钓鱼便是一种典型的欺骗网民并从中获取利润的欺诈手段,给网民的财产造成了严重的损失。由此可见,有效遏制“钓鱼网站”是网络安全的重要保障。一般来说,钓鱼攻击者都是通过伪造的钓鱼网址去引诱网民进入钓鱼网站,进而实施诈骗,所以如何准确高效地识别钓鱼网址已成为网络信息安全的研究热点和重要问题。当今,国内外学者已对防御钓鱼网站进行了越来越细致的研究,但仍需要进行改进与深入。现如今,深度学习技术的出现对钓鱼网址识别方面发挥了极其重要的作用,大大提高了检测效率和准确率。然而,深度学习模型就如同黑盒一般,给它一个输入,则反馈一个决策结果,虽然结果较可观,但没人能确切地知道它背后的决策依据以及它做出的决策是否可靠,其模型内部的具体操作我们并不了解,这阻碍了深度学习的进一步发展和应用,所以其可解释性研究已迫在眉睫,成为了当今的热点和难点。钓鱼网址一般存活时间短且变化形式多样,人工提取URL(Uniform Resource Locator,统一资源定位符)的特征往往依赖于人的先验知识,提取的这些特征不一定能有效区分钓鱼网址,准确率往往不高,检测方法效率较低下,因此本文采用了一种无需人工提取特征,而直接学习URL字符序列的检测方法,具体如下,首先通过网络爬虫技术在https://openphish.com网站黑名单数据库中爬取了5000条钓鱼URL,并通过搜索引擎搜索钓鱼网址对应的品牌去爬取5000条正常URL,然后将这10000条带正反标签URL样本通过ASCII码表转化为一个二维矩阵,再利用神经网络嵌入层构建词向量,最后送入到几种循环神经网络模型中训练并进行比较,发现双向门控循环单元(Bi-directional Gated Recurrent Unit,BiGRU)神经网络可以学习序列化特征和长期依赖关系的特性,并捕捉URL字符序列之间隐含的依赖关系,当用于钓鱼网址识别时,可以大大提高钓鱼网站检测的准确率和查全率。另外,为了研究模型的可解释性,找出BiGRU神经网络模型分类的依据,本文先采用Lundberg和Lee在2017发表的论文《A unified approach tointerpreting model predictions》上提出的SHAP(SHapley Additive exPlanations)可解释法对BiGRU神经网络模型进行可解释性研究。再采用2016年顶级数据挖掘学术会议(KDD)上提出的LIME(Local Interpretable Model-Agnostic Explanations,局部可解读的与模型无关的解释)解释法对BiGRU神经网络模型进行可解释性研究,并对两种解释模型做对比分析。通过研究分析得到以下结论:1、从模型分类的性能上看:双向门控循环单元神经网络较其它的循环神经网络用于钓鱼网址识别时有更高的准确率,达到98%以上。2、从模型分类的判定依据来看:神经网络通过学习大量的URL数据集,发现其判定的依据主要是根据一个字符或者字符串的特征。3、从判定依据的特征来看:这些字符串的长短不一,且之间有包含关系,但它们对判定此条URL为正常网址还是钓鱼网址均有一定的作用,并且被赋予不同的特征贡献值。4、从两种解释方法的性能对比来看:从总体上来说,SHAP解释考虑到特征之间的相关性,适用范围更广,但具体到本文来说,针对本文没有人工提取特征的情况,用LIME解释会比SHAP解释得到更好地解释结果。
其他文献
日前,AT&T通过其定制的移动管理服务,帮助全球优质企业客户大大简化移动环境。这些综合式服务将在所支持的国家及地区为企业提供移动服务提供商的端对端
金属矿产资源评价系统的开发研制与应用,使得对地学数据的处理和理解上升到了一个新的层次,矿产地质人员面对海量的多源、多元地学原始数据以及中间结果数据,却被淹没在数据
会议
道德信仰是道德的存在依据,它的产生与功能发挥需要一系列的机制。理性主义认为理性是衡量知识合理的标准,万事万物必须拿到理性的尺度下去衡量。理性主义的扩张逐渐瓦解了意
Ruckus日前宣布,美国内华达州道格拉斯郡学区(DCSD)已经选择其智能Wi-Fi(SmanWi-Fi)产品和技术为它们的12所K-12学校和两个行政办公室部署全校范围的802.11n网络。
党的十九大报告提出“打造共建共治共享的社会治理格局”,要求“加强社区治理体系建设,推动社会治理重心向基层下移,发挥社会组织作用,实现政府治理和社会调节、居民自治良性互动”。党的十九届四中全会进一步指出:“构建基层社会治理新格局,完善群众参与基层社会治理的制度化渠道,要健全社区管理和服务机制,推行网格化管理和服务,发挥群团组织、社会组织作用,实现政府治理和社会调节、居民自治良性互动,夯实基层社会治理
党的十六大、十七大报告提出“扩大就业战略”,党的十八大报告提出“推动实现更高质量的就业”,党的十九大报告提出“就业是我国目前最大的民生”、“要坚持就业优先战略和积极就业政策,实现更高质量和更充分就业”。因此,就业问题不仅要关注就业的“量”,更要关注就业的“质”。视障生是高校大学生群体中一部分需要被关注的弱势群体,本研究通过对以往文献的回顾整理,以就业质量和高校视障生研究两方面进行,基于视障生生理特
详细分析了本实用新型去毛刺机的结构特点和工作原理。重点阐述了本结构与其它结构的去毛刺机所不能比拟的优点,改进后的本结构设备在生产实际中的应用情况及今后的发展趋势
采用CO2激光器在Q235钢基体表面激光原位合成TiC/Ni复合涂层;借助于扫描电镜(SEM)、X射线衍射仪(XRD)、能谱仪(EDS)、显微硬度计、ML-100型磨粒磨损试验机对涂层组织结构、物
本文依托初中科学课程标准与教科书,从研究背景与缘由、实践应用、成效与反思等三个方面论述生活素材在初中科学教学实践中的应用研究,归纳并层层展开生活素材的选取原则、处
目的 观察并分析新生儿PICC导管尖端位置采取PICC定位技术 心房内心电导联的应用效果。方法 选取本院2017年7月~2018年8月行新生儿PICC导管尖端定位的患儿59例为观察组,选取2