论文部分内容阅读
随着大数据技术的发展,网络用户数量日益增长,网络吞吐量不断上升,网络攻击随之日益严重。为了解决这一问题,入侵检测系统(Intrusion Detection System,IDS)应运而生。IDS的功能是对主机和网络进行长期的监视,判断是否存在可疑事件的发生,并且当发现可疑事件时能够对其做出相应反应。IDS基于两种方案监测流量以发现入侵,其一为规则分析,其二为模型检测。基于规则分析的IDS通过从已知的攻击中人为提取某些特定规则来完成构建。基于模型检测的IDS则是通过对收集的正常流量或异常入侵进行训练来完成构建。近年来,人工智能(Artificial Intelligence,AI)技术蓬勃发展,应用不断深入,资金不断投入,成为当下最大的研究热点。而机器学习(Machine Iearning,ML)正是人工智能的核心领域。由于机器学习算法展示的极大可能性,研究人员也开始将其应用于IDS领域,产生了许多有价值的网络安全技术。虽然这些技术为IDS的发展做出了很大贡献,但仍存在着一定的问题。针对这些问题,本文提出了以下解决方案:(1)针对目前许多基于机器学习的IDS只能区分异常数据且需要大量标记数据才能保证效果的问题,本文提出一种基于半监督聚类的多层离线IDS。该系统首先通过遗传算法过滤正常流量,避免攻击分类时正常流量的干扰。再将少量已标记的数据导入到过滤出的攻击中,通过K最近邻算法进行标记扩展。然后,基于半监督聚类完成攻击分类。最后,通过最小二乘支持向量机筛选出被遗传算法误判成攻击的正常流量。仿真结果表明,该方案只需少量标记数据就可得到较优的性能。尤其针对出现频率较低的攻击,与传统算法相比,该方案有较高的查全率和准确率。(2)针对目前已有算法大多基于特征数据集检测且无法检测未知攻击的问题,本文提出一种基于流量可视化和更新机制的在线IDS。首先,完成流量数据的收集、过滤与预处理,将流量转化为灰度图。然后,利用K-means算法对灰度图聚类,为更新机制做好准备,并通过卷积神经网络与C4.5决策树算法完成已知攻击的检测。最后结合K-means算法和“熵”理论发现未知攻击并完成系统的更新。仿真结果表明,该方案与传统算法相比具有明显更好的性能。尤其是能够顺利检测出其他方案所不能发现的未知攻击。