基于支持向量机和节点检测的恶意链接检测系统

来源 :南京大学 | 被引量 : 0次 | 上传用户:ss501love
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web2.0技术的出现让互联网技术在全球得到了飞速的发展,AJAX技术让习惯了 Web1.0时代的静态页面的用户惊喜的发现原来网页也可以动态的改变内容与他们进行交互。在这个背景下,基于C/S和B/S架构的Web应用如雨后春笋一般的出现,极大的丰富了人们的网络生活。但是,互联网发展给用户带来的不仅仅只是各种便利,随之而来的,还有日益严重的网络安全问题,恶意链接是众多网络安全问题中覆盖面最广、也最接近用户的一个。近些年来,移动互联网随着智能手机的迅速普及已经替代了传统的互联网,几乎每时每刻,用户都在通过智能手机中的各种应用链接到移动互联网。传统互联网下的恶意链接问题也同样蔓延到了移动互联网当中,并产生了大量的变种。因此,如何保证对已知类型的恶意链接意链接样本进行完整识别的同时还能对大量新的恶意链接形式做出迅速的学习和过滤是目前国内外专家学者以及网络安全工作者探讨和研究的重点。目前,国内外针对恶意链接的检测技术,主要有防火墙过滤、利用黑/白名单和特征匹配技术进行检测等,这些方案在多年的网络安全对抗中针对恶意链接取得了不错的识别效果,但是这些方案都是需要通过已知的恶意链接样本指定过滤规则,无法对新出现的恶意链接形式进行识别。然而当前环境下,日益涌现的新技术以及长期的安全攻防已经让黑客有了丰富的攻击经验,因此恶意链接通过代码混淆、链接隐藏等技术发生的变种攻击越来越频发和迅速,传统的检测在解决这些问题方面越来越显得捉襟见肘。面对这一情况,本文在前人研究成果的基础上,提出基于支持向量机和DOM检测算法的恶意链接检测系统(SN-MLDS)方案。该系统主要由数据去重模块、黑/白名单检测模块、基于支持向量机的检测模块以及基于DOM结构改变的检测几个模块组成。同时,为了提高系统的整体效率,本系统增加了数据排重处理过程来对大量的恶意链接样本进行过滤。在数据排重中,通过结合布隆过滤器和改进后的SimHash算法,本文提出了兼顾时间和排重效果的MSHASH-BF算法。并利用Map Reduce对100万条数据针对三种算法做了对比试验。在分类学习检测模块,通过选取分类算法领域中经典的朴素贝叶斯算法、C4.5、分类回归树以及机器学习领域的支持向量机算法,并根据对恶意链接的研究经验从结构特征、字符特征、账户特征、移动特征等几个方面共选取36个属性特征作为训练分类器的特征向量,利用采集的恶意链接测试样本集进行一系列的分类对比试验来证明支持向量机在恶意链接检测方面存在的潜力,并将其用作恶意链接检测系统的核心分类算法。同时,为了及时应对新出现的恶意网络链接,在保持系统开销的前提下提高系统的适用性和识别准确率,本文利用自适应支持向量机在对检测得到或者定期爬取得到的新的恶意链接样本进行增量特征学习来跟新经验分类器,从而不断提高系统的识别能力。针对网页中以暗链接等形式存在的恶意链接,本文利用DOM同层节点比较算法,通过实时监测页面DOM结构的变化,发现和提取新增的DOM子树,并利用构建的正则表达式对其中的恶意链接进行匹配。将提取出来的恶意链接作为待测样本集利用另外两个模块进行检测。最后,本文利用实验检测了系统在恶意链接检测方面的效果。经过实验验证,基于MSHASH-BF进行的数据排重模块在对数据进行去重时在时间和效果上都取得了不错的效果,并且通过黑/白名单过滤、自适应支持向量机模块检测、DSCD模块检测的闭环检测逻辑,恶意链接的识别效果有了一定的提升。虽然本系统方案在恶意链接检测方面针对传统技术方案存在的问题进行了一定的改进,但是没有经过实际的业务检验,因此,其稳定性、系统的开销等还有待改进和提升。同时,网络安全问题并非只是恶意链接这一种,还有恶意脚本、危险舆情等等,如如何持续的扩展和完善本系统方案,是本课题接下来需要继续努力的目标。
其他文献
滑坡是一种较常见的自然灾害,而滑坡往往与边坡内的水分变化息息相关,降雨及蒸发是边坡内水分变化的触发条件。当前学术界对于降雨条件下边坡的稳定性研究已较为深入,却极少有文献考虑蒸发对边坡稳定性的影响。为研究降雨及蒸发条件下边坡的湿热响应规律与稳定性变化,本论文以一个排土场边坡为研究对象,设置了多种综合考虑气温、湿度、风速、降雨等因素的气候工况以及与气候工况对应的降雨单因素工况,借助Geostudio的
为了探究频次类型对高中生介词构式习得的影响,本研究以福建省某一级达标校56名高二学生为研究对象,并将研究对象分为英语水平无明显差异的两组,分别接受6次两组不同类型的频次输入,且每接受2次频次输入则进行一次介词构式知识测试,以此来判断介词构式习得效果。本研究具体探讨以下三个问题:(1)频次如何影响介词构式习得?(2)频次类型对介词构式的习得效果是否存在显著性差异?(3)频次类型对介词构式的接受性和产
唐代寺院倡茶,茶饮成俗,《茶经》问世,茶道大行,茶圣陆羽与苏州虎丘寺院有不解之缘。宋时苏州洞庭水月禅院创制"水月芽"贡茶,与"中华十大名茶"之一洞庭"碧螺春"有渊源关系。
近年来,随着汽车数量和重型车比例急剧增加,道路病害不同程度的存在,道路使用寿命大大缩短。通过对我国在长寿命路面开展的相关研究和成果分析,发现存在两点不足:其一研究对象大多是高速公路而不是城市道路,其二气候的划分不精细,没有考虑地区气候的唯一性。将其应用于大流量交通和气候各异地区的路面结构设计是完全不容许的,以至于没有形成适合国内交通、环境特点的长寿命路面结构。为了解决地区气候对路面结构研究的影响,
随着通信技术的快速发展,越来越多的通信设备要求通信系统能同时处理几个频段的信号,使其能够被选择与传输,因此多通带滤波器成为业界的重要需求。同时,频谱资源变得越来越紧张,多通带滤波器可以提高频谱利用率,因此多通带滤波器研究变得十分重要。多通带滤波器的传统设计方法是先设计多个单通带滤波器,再通过连接公共端口和匹配电路将它们连接起来,这种方法使滤波器的电路体积增大,不满足滤波器小型化的需求。多层结构可以
作为英语四项基本技能之一,阅读能力极其重要。因此,提高高中英语阅读课的教学效率刻不容缓。然而,众多一线老师仍然运用传统教学法教授英语阅读课,这对学生的英语阅读水平、阅读技能和阅读兴趣产生了消极影响。为了提高学生的英语阅读水平并且摆脱传统教学法的缺点,众多研究者致力于提出一些新的英语阅读教学模式。在众多教学模式中,基于建构主义、输入假设以及有意义接受学习的USE教学模式引起广泛关注。在现存关于Und
背景:食管胃静脉曲张(GEVs)是肝硬化常见的并发症之一,大约50%的肝硬化患者存在GEVs,约22%25%的肝硬化患者存在胃静脉曲张。由于CT检查操作简便及无创性,在胃静脉曲张诊治中运用越来越广泛。目的:本研究旨在研究多层螺旋CT(MSCT)对胃静脉曲张组织胶治疗的指导作用。方法:回顾性研究了2013年11月至2019年4月于重庆医科大学附属第二医院行内镜下组织胶治疗的362例患者,分为MSCT
由 Fiber Channe1-Avionics Environment-1553 协议集(简称FC-AE-1553)所规范的针对航空电子环境开发的光纤通道技术具有高传输带宽、低时延、低误码和无缝兼容传统Military-Standard-1553(MIL-STD-1553)总线协议的特点,因此在航天航空领域具有广泛的应用。目前对于FC-AE-1553网络中确定性业务的传输,大多采用“按需分配”的
姜黄素有着抗肿瘤、抗炎、抗病毒等多种药理作用,且不良反应少,药源充足,极具开发前景,但其本身难溶于水,且体内易被代谢,口服生物利用度非常低。纳米氧化锌作为新型无机纳米载体,价格便宜、生物相容性高。因此本课题拟利用氧化锌纳米粒为载体,难溶性药物姜黄素为模型药物,构建一种负载姜黄素的叶酸修饰的氧化锌纳米粒(ZnO-FA-Cur NPs),以提高姜黄素的生物利用度及靶向性。1、本课题构建了一种平均粒径约
经过四十多年的发展,有机半导体材料凭借其优秀的光电和自旋特性,在科研和实际应用中都开拓出广阔的前景。由于柔性、质轻、价格低廉、结构可调制等特性,有机半导体相比于无机半导体具有不可替代的优势,正好弥补了电子学发展过程中无机材料的弊端。有机发光二极管、有机太阳能电池、有机激光器、有机自旋阀等有机电子学器件不断地发展,在我们的生产和生活中表现出巨大的潜力。但是,有机半导体材料也存在一定的劣势,比如器件使