基于机器学习的Web日志异常流量检测技术研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:pooh__5210
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的普及和飞速发展,网络安全问题也愈发重要。Web日志记录了网站的运行信息和用户的所有操作,通过日志分析开发者可以检测出网络的异常流量,及时发现漏洞。由于传统的基于规则和模式匹配的日志分析技术对海量数据的处理效果不佳,也无法应对形式复杂多样的网络攻击,将机器学习和深度学习技术应用到日志分析领域是大势所趋。本文提出了一种自定义特征的方法,对比于其他基于统计信息的特征提取,该方法将特征提取的重点放在URL部分,忽略对其他冗余和对检测结果提升不大的信息,有效的减少了日志数据特征提取后的维度,结果证明,该种特征提取方法检测结果良好,检测效果也略微高于其他的基于统计特征的特征提取方法,但特征维度大大减小。接下来研究了一种与距离度量相关的特征系数调节方法,将其应用并改进KNN算法,使得机器学习中异常检测的各项评估指标得到提高。主要内容如下:首先介绍了Web日志的结构和特点,介绍了误用检测和异常检测两种常用的Web日志异常流量检测方法,其中,根据使用算法效果的不同,异常检测又可细分为基于神经网络和基于其他机器学习算法的异常检测,随后对相关的算法进行了简介。然后使用了一种基于统计知识的特征提取方法从Web日志中提取特征,对比了一些其他特征提取方法,检测效果较为良好,但特征提取的维度远远低于其他方法,经过进一步的降维手段,以牺牲较小的检测结果的代价,换取了维度的进一步降低,大大节省了数据特征的存储空间,提升了后续算法的处理速度。接下来重点研究了一种特征系数调节方法,不同于传统的特征标准化,特征筛选等特征工程,特征系数调节着重研究了不同特征间的重要性的差异,并赋予不同的权值系数予以调整距离度量中的贡献度。在此基础上应用K近邻算法,随后运用粒子群优化算法继续予以改进,使得特征系数的调节具有自适应性。与改进前对比,结果证明仅仅添加3个特征系数,准确率提升了0.84%、精确率提升了1.00%,f1-score提升了1.09%。最后,建立了一个基于ELK日志系统,综合前文所涉及的相关技术,进行总体的实验和仿真,并对结果进行具体分析。
其他文献
随着光纤传感器被广泛应用到生产生活的各个领域,生物医学的发展也对光纤传感器的性能提出了新的要求,普通的光纤传感器存在材料损耗大、测量精确度低等问题。因此,为了适应生物医学检测的灵敏度要求和临床实验需要,一种用于检测生物细胞是否癌变的光纤传感器的研究日趋活跃,其特征为在普通生物医学光纤传感器的表面覆盖纳米金颗粒,利用纳米金颗粒的表面等离子体共振对效应可以有效的增加光纤传感器的灵敏度。然而,目前的研究
油田作业区的生产和建设,安全有着举足轻重的地位,智能化的监控管理可谓是生产的一大步,不仅可以节约人力成本,工作效率也会得到明显的提高。本文在基于这样的课题背景下,从油田工作区工作人员的人脸验证入手,研究和设计了基于深度学习的图像增强网络和人脸识别网络,最终建立起完整的人脸识别系统应用在油田视频监控平台上。本文的主要内容包括:首先进行了深度学习的研究,并在对户外图像增强算法DSLR-Quality
在工业4.0时代,“数字化双胞胎”成为众多企业向数字化、智能化转型的战略法宝。其核心是将现实生产制造中的各个环节通多数字化手段虚拟到数字化平台中,形成虚拟生产制造和现实生产制造的镜像。因此,数字化双胞胎概念的提出对优化整个企业流程、提升企业竞争力起着至关重要的作用。特别是在智能制造行业中,它势必会推动智能制造的快速发展。但是,目前国内很少有企业将数字化双胞胎的概念运用到接近传感器中。尤其是工业流水
肝细胞癌(hepatocellular carcinoma,HCC)是一种常见的恶性肿瘤,其在全球癌症相关死亡人数中排名第三。目前,HCC的早期检测方法主要有血清标记物检测与影像学检查。其中,血清标记物的灵敏度不高,无法鉴别大约1/3以上的肝癌患者。影像学检查对于直径<2厘米且分化较好的早期肿瘤的诊断敏感性约50%左右。因此,对于影像学检查难以辨别的早期肝癌组织中发生的微小病理改变,通常采用肝穿刺
随着第五代移动通信系统(5G)的商用化逐渐落地,毫米波频谱资源会变得逐渐稀缺,此时比毫米波频段更高的太赫兹(THz)频段必将是未来通信发展的主要趋势。近年来,THz通信已被公认为可以为第六代无线通信系统(6G)提供足够频谱资源和超高数据速率的有前途的技术。由于THz信号路径衰减以及分子吸收十分严重,长距离通信会对信号强度造成很大程度的损害,所以短距离室内场景是目前研究THz通信最适用的场景。然而,
随着以太网的日益发展,局域网的复杂程度也随着用户数和网络终端的增多而越发提高。为了保证局域网运行环境的健康稳定,在局域网的故障管理过程中,网络管理员需要对网络的整体运行状态把控和对网络故障进行成因分析和经验式诊断。但由于局域网往往承载着特殊业务,传统方法非常耗时耗力,于是现阶段对故障诊断的响应以及智能程度提出了新的要求。因此,本文从深度学习角度出发,研究了基于卷积神经网络模型的网络故障诊断方法。本
量子力学本身的特殊性质使得量子算法在解决某些问题上具有量子优势。本文着眼于量子查询算法以及量子强化学习算法,提出了两种不同的解决特征值问题的量子算法,这两个新的方法相比较于经典算法都具有量子优势。在第一个工作中,我们受到不动点搜索算法的启发,提出了基于查询的方法来解决特征值求解问题。我们将此问题转化为基于查询的搜索问题,并且将未知的特征态设定为所求问题的目标态。我们的方法主要思想是通过不动点Gro
随着信息时代的到来,计算机不仅促进了社会的发展,也改变着人们的生活。但冯诺依曼体系计算机的发展将会逐渐受到限制。近些年,量子计算逐渐受到人们的关注,量子计算中存在纠缠和叠加等特性,可以利用这些特性实现加速。将量子计算与经典的机器学习算法相结合,有望解决数据量巨大和训练速度缓慢等棘手的问题。本论文主要分为两部分,一部分我们主要介绍了量子计算的基础和量子变分电路研究现状及背景,量子变分电路是在量子本征
机器学习已然成为现代科学的基石,它被广泛地应用于所有科学领域。然而,它于计算电磁学(CEM,Computation Electromagnetics)算法相结合还有待研究。在本文中,我们将基于深度学习(DL,Deep Learning)的机器学习方法与传统的FDTD(Finite-Difference TimeDomain)算法相结合,研究DL-FDTD算法原理和实现技术,并应用在计算电磁学中。本
目的:本研究旨在系统评价机器学习算法预测脓毒症发病及病死率研究的方法学和预测模型,提出机器学习预测研究报告标准,并以此为基础创建危重症患者数据集,进行脓毒症发病和预后预测研究。方法:研究分为两个部分。第一部分为系统评价(systematic review)研究。检索中国知网、万方数据库、Pub Med、Web of Science等数据库中机器学习算法用于脓毒症预测文献,时间从2010年1月至20