论文部分内容阅读
多源安全数据的分析是网络安全领域分析预测的基础,多源数据的融合分析技术是对安全数据进行处理的重要方法。日志数据可以记录系统的状态变化,日志文件可以表示出系统状态改变的情况。对网络安全状态的分析可以结合日志数据和其他安全数据,达到综合分析的目的。流形学习算法是近十年应用较广泛的一种数据降维与特征提取方法,该方法融合了计算机科学、数学、智能科学和认知科学等相关知识,已经成为目前机器学习研究领域的重点和热点方向。论文结合流形学习算法,将多源异构安全数据的融合分析分为多源数据预处理、特征提取和安全分析三部分:第一部分是预处理阶段,主要是对多源安全数据进行预处理操作。为了减少多源数据在语义、时间、空间上的异构性,同时去除脏数据,论文提出一种基于流形学习算法的数据预处理方法。首先,对数据进行数据清洗操作,包括初步过滤去重,识别噪声数据等;然后进行数据约简操作,通过流形学习算法对数据源进行降维,以此获得高质量的数据。第二部分是安全特征提取阶段,主要是对经过预处理后的数据的特征提取。为了分析多源异构数据源,选择合理的数据特征,论文提出一种基于多流形学习算法的数据特征提取方法,该方法同时考虑了多源数据的类别属性和距离信息。第三部分是安全分析阶段,主要是对提取的数据特征进行安全分析。随机森林算法由于构造容易、普适性强、方便与其它算法结合等优点被广泛应用,但传统的随机森林学习算法存在耗时较多、容易产生相似的决策树和构造效率低的缺点。因此论文提出一种基于多流形学习的随机森林构建方法,选择数据的本质属性构建决策树,生成随机森林,使随机森林准确率提升,同时有效避免噪声影响和过拟合现象。最后,对论文提出的方法进行了实验验证。实验结果表明,与现有的数据预处理方法、数据特征提取方法和随机森林分析方法相比,论文提出的方法提高了安全分析的效率和准确性。