基于模糊粗糙集和组合分类器的态势要素提取

来源 :河北师范大学 | 被引量 : 0次 | 上传用户:gbe3919
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当代计算机技术与网络迅猛发展,已经深入到各行各业。随着信息时代的到来,人们在享受网络所带来的方便、快捷的同时,也正在被各式各样的网络安全问题威胁和困扰。近几年,网络攻击日渐复杂且具有隐蔽性,致使传统的基于被动防御的网络安全产品和技术难以应对现阶段的网络安全问题,而基于主动防御的网络安全态势感知技术能够更好的解决此类问题。自20世纪末网络安全态势感知技术被提出以来,其被广泛应用于网络安全的各个领域中。广义的网络安全态势感知技术分为态势要素提取、态势理解和态势预测三个过程,而态势要素提取是整个过程的第一步也是最为关键的一步,其提取质量的优劣会直接影响态势理解和预测的准确性。广大学者依据各种理论提出了许多态势要素提取方法,这些方法在某些方面具有一定的优势,但也存在一定的局限性。针对现阶段态势要素提取方法的不足,本文对网络安全态势要素提取算法进行了深入的研究,提出了一种基于模糊粗糙集和组合分类器的态势要素提取模型,用来提升态势要素获取的准确度,以便为态势的理解和预测提供更好的数据基础。本文将模糊粗糙集和组合分类器理论引入到网络安全态势要素提取的过程中,利用模糊粗糙集理论实现了在不降低数据分类能力的前提下,对数据进行属性约简,降低了数据的复杂度;利用组合分类器理论和粒子群优化算法,搭建了一个态势要素提取框架,能够更准确的提取态势要素。主要研究工作如下:
  首先,提出了一种条件属性相似度度量方法,利用该方法求出条件属性相似度矩阵,然后采用直接聚类算法根据阈值对相似的条件属性进行聚类,再利用提出的最大相似性准则从每个相似属性集合中选出最具代表性的一个属性来代替该属性所在的属性集合,从而达到条件属性次级约简的目的。
  其次,为了降低样本被错误分类的概率,保证样本属于真实类别的隶属度最大,同时减少噪声样本的影响,本文对模糊集的上下近似算法进行了改进,提出了一种基于k阶距离加权平均的紧邻域上下近似计算方法,并应用于模糊粗糙集对次级条件属性进行启发式约减,从而得到最终的条件属性集合。
  再次,本文利用实验对15个常用的分类算法进行比较,然后根据分类算法的一些衡量指标从中选取了4个性能良好的分类算法构建了一种组合分类器。为了使组合分类结果能够更有效的融合,提出了一种基于粒子群优化的BP神经网络融合算法,利用改 进的粒子群优化算法对BP神经网络进行融合训练,加快了模型的收敛速度且提取的态势要素更加准确。
  最后,对上述态势要素提取框架进行了代码实现并在网络安全数据集NSL—KDD上进行了实验,且与多种属性约简算法、态势要素提取算法进行了对比。从实验结果上可以看出本文所提出的网络安全态势要素提取框架能够在保证数据分类能力的前提下,有效的缩短态势要素的提取时间,提高态势要素获取的准确性,从而证明了本文提出的态势要素提取框架的有效性和可行性。
其他文献
学位
随着大数据时代的来临,全球互联网产业展现出巨大的发展活力和韧性,在数字基建和数字经济迅猛发展的同时,我国网民规模、互联网普及率以及平均每周上网时长都有迅速增加扩大趋势,这导致网民们每天都充斥在海量的网络信息里,产生了严重的信息过载问题。如何解决当前信息过载问题已经非常迫切,需要对海量信息进行信息抽取和过滤,减轻负担。而对于信息抽取最重要的一环就是自动文摘,自动文摘就是利用计算机对文本中心内容进行简
大数据时代带来了信息量的指数增长,现实中各行各业积累了巨量的数据。由于数据采集难度和事件发生频率的不同,导致了各个类别的样本数量具有差异,形成了类别不平衡问题。类别不平衡问题造成了传统机器学习分类器的分类精度下降。已有的代价敏感学习方法能够较好地处理类别不平衡问题,然而复杂的类别中蕴含了类与类之间的层次结构关系。数据中类别具有层次关系的样本分布不平衡问题给机器学习分类任务带来了很大的挑战:(1)少
学位
在多标记学习中,由于丰富的标记结果需要由大量的特征属性描述,同时标记间自由组合的标记子集数量随着标记数量的增加而呈指数型增长,在样本有限的情况下导致只有少数标记子集具有样本描述且这些标记子集的平均覆盖样本数量较少,这表现为多标记学习中的两个特点:特征维度高和不均衡学习,因此多数传统的单标记特征选择算法无法很好的直接应用到多标记学习任务中。本文以经典的FisherScore单标记特征选择算法为研究对
学位
在大数据时代,特征选择作为一种数据预处理技术,在机器学习领域发挥着越来越重要的作用。目前,大多数特征选择方法主要应用于单标签数据,然而,随着数据维度和标签的不断增加,特征选择已经广泛的应用于多标签数据,并产生了较好的分类效果。传统的一些多标签特征选择算法大多度量特征与整体标签集合的相关性,并选取一组相关性较大的特征子集,然而,多标签数据中的标签间存在着复杂的结构关系,如果仅仅去度量特征与标签间的相
学位
Pawlak提出的粗糙集理论,是一个处理模糊和不精确性问题的数学工具,能对数据进行分析和处理,从中发现隐含的知识;并揭示潜在规律,做出准确决策。但是,Pawlak粗糙集是以等价关系为基础,在很大程度上限制了粗糙集理论的使用范围和处理效果。为了解决这种问题,近年来学者们提出了多种广义粗糙集模型,包含关系粗糙集、模糊粗糙集、变精度粗糙集和覆盖粗糙集等,其中覆盖粗糙集理论已是粗糙集理论的重要组成部分。 
随着互联网、人工智能和云计算等新兴技术的飞速发展,这些领域的数据普遍呈现出高维的特点。同时,这些高维数据又存在特征维数与样本数量不协调、类别分布不均衡的问题。为了能够从这些海量数据中充分挖掘出有价值的信息,特征选择作为一种数据预处理技术,在机器学习领域发挥着越来越重要的作用。面对高维样本数据,目前许多特征选择算法都能够选取出与标签相关度较高、与其它特征冗余度较低的特征。但是,去冗余的过程较为复杂,
学位
蛋白质在生命活动中起着重要作用,了解蛋白质的结构与功能,有助于人类探索生命的运行机制,促进治疗药物的研发。其中,蛋白质与核酸的结合对细胞转录过程具有重要的调控作用,而蛋白质的翻译后修饰广泛存在于细胞翻译过程中。因此,核酸结合蛋白和蛋白质翻译后修饰位点的预测对于了解蛋白质的功能具有重要意义。传统的生物实验方法周期长、成本高,无法满足日益增长的大规模蛋白质数据的预测。基于计算的方法消耗成本更少且简单高
显著性检测是通过模拟人的视觉注意机制,在图像中提取具有显著性的目标区域的过程。作为诸多计算机视觉应用的预处理步骤,显著性检测已广泛应用于多种任务中。本文总结和分析彩色图像显著性检测和高光谱图像显著性检测技术的研究现状,并基于深度学习研究实现了结合对抗学习的彩色图像显著性检测算法和结合自监督学习的高光谱图像显著性检测算法。1.结合双流特征融合及对抗学习的彩色图像显著性检测(SaTSAL)在CGAN主
学位
异质信息网络蕴含丰富的结构信息和语义信息,能够形象、灵活地区分交互系统中对象及关系的差异性。链路预测是图挖掘的基本问题,它根据观察网络中现有的信息估计两个节点之间链路的存在概率,可作为解决数据挖掘中许多任务的基础。现有研究方法多数只关注网络拓扑结构而忽略了节点属性信息,并且用于链路预测的相似性度量方法往往根据元路径考虑节点间的路径相似性。本文根据数据特性提取节点属性信息,结合图核理论,进行异质信息