基于机器学习的网络安全关键技术研究

来源 :电子科技大学 | 被引量 : 2次 | 上传用户:wqra555551q
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,受益于通信、大数据及云计算等技术的成熟应用,“互联网+”已在民生、经济、政务等方面被广泛普及;但随着信息技术不断发展,难以计数的网络设备、应用以及爆发膨胀的网络数据,使网络环境变得日益复杂,给网络安全带来巨大的隐患。面对互联网数据海量、业务多样、演变迅速的特点,传统网络安全技术效率低下且呆板固化,在性能、自适应性和泛化性方面已经不能有效应对当前网络安全的形势,因此研究新的网络安全技术具有非常重要的意义。目前,基于机器学习的网络安全研究已取得了很多成果,展现了能够处理海量数据、检测识别以及自动学习的强大能力,给网络安全领域拓宽了发展思路,成为了当下热门研究之一。但现有方法由于依赖于公开标记的安全数据集以及经验知识,在实际网络数据采集、安全特征提取以及检测模型构建的环节上存在局限,难以适应于真实网络环境的特点并对实际网络攻击进行检测,造成现有研究较难在实际网络中进行部署实施。基于此,本文首先对现有基于机器学习网络安全的研究现状进行梳理,包括研究范畴、研究方法和相关工作;然后集中对现有研究存在的主要问题及其原因进行分析,为后文的研究提供支撑;随后着重对实际安全信息采集、未知协议特征提取、自适应增量模型构建三个关键技术进行研究,通过从实际网络中收集真实的安全信息、从未知网络协议数据中提取特征、构造自适应及增量式的检测模型,提升基于机器学习的网络安全技术的检测性能、自适应和泛化能力,使其适应于实际网络数据海量、业务多样、演变迅速的特点,并能对其中已知和未知网络攻击进行检测,以实现在真实网络环境中的应用。本文研究的具体内容如下:1、为了收集实际的网络安全数据,提出统一安全信息采集模型;首先,对异构安全设备上产生的各种类型的安全信息进行收集,并以标准格式进行封装;然后,利用过滤和整合方法,根据信息过滤标准和事件相似度,对初始信息中存在的错误和冗余内容进行处理;随后,通过基于事件相异度的关联方法,利用Bayes算法将相似行为的混合型安全事件进行关联;最后,研究事件的管理方式,对安全信息进行有序存放;实验结果表明,该模型通过信息采集、处理和关联的操作,在整合压缩比、关联正确性、完备性和处理效率指标上取得了较好结果,能为后续研究提供有效的安全数据。2、为了在无先验知识条件下提取未知网络数据的特征,以未知协议报文作为研究实例,提出一种未知协议解析方法Rebuilder;首先,构建基于隐半马尔可夫的未知协议报文模型,对协议字段内的变化规律和字段间的状态转移关系进行描述;然后,研究未知报文的解析方法,利用Baum-Welch方法对报文模型进行训练,根据最大似然准则对协议关键词、字段长度进行估计;最后,研究基于未知报文分段的特征提取方法,将频繁出现的关键词或关键词序列作为报文特征;实验结果表明,Rebuilder在无先验知识条件下对文本、二进制协议报文格式进行解析,相较于对比方法提高了字段划分的准确度、覆盖度等指标,能为提取未知协议报文特征提供有用信息。3、为了克服内容2,需要依赖于通用报文结构来构建未知协议报文模型的问题,提出基于模式发现理论的未知协议解析方法ReSight,仅利用报文数据本身对未知协议格式进行解析;首先,根据信息论原理对协议解析过程进行分析,提出模式发现的衡量标准和重构规则;然后,提出报文格式ε状态机的模式重构算法,挖掘报文格式的隐含模式;最后,实验在无先验知识条件下,利用ReSight对二进制类型报文格式进行解析,为提取未知协议报文特征提供有用信息。4、为了构建自适应和增量式检测模型,提出基于混合高斯模型的入侵检测系统ENID;首先,采用基于粗糙集理论的特征选择方法,以特征的信息增益为度量标准,实现最优特征子集的选取;然后,根据相似相离原则提出自适应的高斯混合聚类算法,自动确定最优聚类簇数,对正常和异常的网络特征进行学习,通过特征匹配实现入侵识别;最后,提出增量更新方法,利用原有聚类结果和增量样本进行增量聚类,通过挖掘频繁特征对未知攻击模式进行即时更新;实验结果表明,ENID相较于对比方法提高了特征选取的有效性、针对已知和未知攻击检测的准确率、误报率及漏报率等指标,可以适应真实环境中网络数据维度高、成分复杂和动态变化的特点,能够应对已知和未知的实际网络攻击。最后将各部分研究内容进行融合,设计混合型的入侵检测系统MixID,并搭建仿真的网络拓扑对该系统进行测试,以验证各关键技术的效果;通过综合对比各项测试指标,MixID在已知、未知攻击检测的准确率、误报率及漏报率等结果上体现了一定优势,其性能、自适应性和泛化性都取得了较好的进步;同时也表明,通过利用关键技术间的互补特性,可以更好的将基于机器学习的网络安全研究应用于实际网络环境。但考虑到目前工作还有很多限制,在大规模网络流攻击、加密流量攻击等方面,依然存在问题值得后续研究。
其他文献
珊瑚(Coral)属于无脊椎动物门中的腔肠类,我国沿海的珊瑚资源主要分布于南海,深圳东部海域也有分布,为研究深圳东部海域造礁石珊瑚的分布、生长及珊瑚礁区的群落结构等情况,
本文通过对相关参考文献的分析,并结合笔者的工作实践,对医院行政后勤岗位绩效考核模式及考核标准的优化进行了深入解析,对医院业务部门与行政后勤管理部门绩效考核的差异性
花冠酒因产地座落在著名的牡丹之乡而得名,其酿酒历史悠久,产品质量风格独特,传承和发扬古代酿酒储酒的历史文化,倡导实实在在做人,认认真真酿酒的经营理念,使之不断发展壮大
半导体量子点具有能级分立、尺寸可调等很多优异特性,在LED、高效太阳能电池、生物荧光探针以及传感器等领域都有广泛应用,其光电特性一直是国际上的研究热点。然而,在实际应
中国房地产业发展迅速,房地产业的产值规模、产业人口规模、开发企业数量、利润总额、净资产等都在大幅增长,并且彼此之间存在显著的相关性。对省域尺度的中国房地产业综合发
近年来在耳神经外科桥小脑角手术中为了扩大暴露,减少术中误判,增加手术的安全性,在手术中配合应用内窥镜,是目前国内外开展的一项新技术。此类手术的开展不仅需要医生有娴熟的技
目的:对乳腺导管造影术从技术的角度进行分析,提高乳腺导管造影术的成功率。方法:固定穿刺针后注入对比剂1~2ml,摄双侧乳腺的头尾位与内外斜位标准摄影体位。结果:乳腺导管造
《运输管理实务》是物流管理专业核心课程之一。本文针对高职教学的特点,以工作过程为导向,重构了《运输管理实务》课程体系,并根据教学实践经验,提出了具有创新性的教学方式
采用出租车GPS移动轨迹数据,根据道路通行速度和出行时间指数(TTI)构建一种城市道路机动性的评估方法,为居民出行提供决策支撑。以深圳市为例,将该评估方法用于测算1km×1km
绝响百年重开台颐和园里的德和园大戏楼“重整旗鼓”今年"五四"青年节,北京市青年京剧团在颐和园德和园大戏楼出演。德和园的最后一次演出是1908年。在绝响百年之后,由北京青年京剧团