论文部分内容阅读
序列分析能帮助解释序列之间的关系并预测事件发展的规律,因而是数据挖掘的一个核心和基础问题,在商业决策、信息安全、生物基因、科学计算等众多领域有着重要的应用。近年来,利用序列分析帮助实现入侵容忍系统,以阻止、预防、检测攻击使系统保持幸存性是信息安全的一个全新思想,正越来越受到各方面的重视。随着人类社会电子化的日益增强,序列分析面临着更多的挑战。数据的数量、种类和规模都在不断增大,数据集中也存在大量的不完备数据、溢出数据、噪声数据等不良数据;同时,随着数据流应用的广泛普及,需要在小的运行时间和低的存储空间内,快速、高效地从大规模数据流中分析出序列相关性,并主动排除不良数据对分析过程的干扰。因此,研究准确度高、速度快,并且能排除噪声干扰的数据流序列分析算法具有重要的理论意义和应用价值。从数据处理的角度来看入侵容忍系统,入侵行为对应的数据以及应用系统相应产生的错误日志都可以看成是序列数据,因而入侵检测、错误处理、维护和恢复关键数据等问题也就可以看成一种特殊的序列分析问题。基于这样的考虑,导致了序列分析在入侵容忍系统中的应用研究。序列模式挖掘是序列分析的重要手段,鉴于现有序列模式挖掘算法大多不能处理噪声数据及其面对大规模数据流时的低效性,研究了适合于噪声数据流领域的有效序列模式挖掘算法。针对大规模数据流提出了一种基于可扩展的滑动窗口和贝叶斯可信推断的数据流序列模式分析算法BMSP-DS。BMSP-DS算法利用滑动窗口获取实时流数据,在小存储空间和低运算时间内快速挖掘出数据流频繁序列模式,并对滑动窗口扩展进行二次扫描,避免遗漏频繁序列,注重精简序列模式发现过程的中间临时数据来提高时效性。针对噪声环境下大规模序列流的自适应分析问题提出一种主动容错的序列流并行分析算法FTPSA。FTPSA算法利用学习网络描述流序列,并存于0-1矩阵中,将低比例和高比例不良数据分层考虑,分别采用基于容错和基于结构优化的学习方法,同时,经过全局筛选有效减少了中间结果集合,降低了内存和通信消耗。理论分析和实验结果表明,该两序列模式挖掘算法精度高,容错性好,具有较低的时间复杂度,适合于大规模噪声数据流的序列模式分析。对序列未来发展趋势的预测是序列分析中的另一个重要分支。在分析现有序列预测算法的基础上,针对传统算法预测遗漏问题,对经典的FTP-DS算法进行了改进,改进后的算法涵盖对未来发展有重要影响的异常点,提高预测的准确性。针对多维序列流的未来趋势预测问题提出了并行算法MSSF-VQ,算法利用矢量空间表示序列流的计算模型,采用量子化技术离散处理连续序列流,并设计了序列流矢量概率树的构造算法和搜索算法。这些数据流预测算法不同于已有的序列预测算法,其可以包含低密度的异常数据对多维数据流进行预测,较大提高了预测的准确性,同时具有较低的时间复杂度和较好的可扩展性。以序列分析算法为基础,以数据为中心,针对入侵容忍系统特性,在分析现有入侵检测方法和错误检测方法的基础上,研究了适用于入侵容忍系统的入侵检测方法和错误发现技术。在研究网络入侵事件特征的基础上,探讨了基于滑动窗口的网络数据流维护策略,设计了新的基于序列分析和基于并行序列分析的实时网络入侵检测框架,提高了入侵检测的准确度和效率。针对现有入侵检测方法不能在容侵系统中提供入侵恢复线索的缺点,提出了入侵容忍系统中基于数值序列分析的异常检测方法和分布式入侵的检测方法。鉴于入侵容忍系统服务于分布式复杂网络环境中,系统错误具有并发性特点,提出了一种基于改进的贝叶斯网络学习的并行错误检测方法PBL,该方法可在容侵系统中有效检测顺序和并发错误,并排除噪声信息对错误发现的干扰。基于序列分析的入侵检测方法和错误发现技术的研究不仅为入侵容忍系统的实现提供一种新的视角和手段,同时也丰富了数据挖掘的研究内容。