论文部分内容阅读
关联规则是数据挖掘的一个重要研究方向,旨在挖掘项集之间的内在联系。Fp树算法是关联规则的一种基于深度的典型算法,具有良好的性能和可扩展性。Fp树通过自顶向下构造频繁树和自底向上挖掘频繁项集,只需扫描事务数据库两次便可以有效的挖掘出频繁项集,因而比基于宽度的Apriori算法快一个数量级。但是,Fp树采用递归的方法,同一条路径需要多次遍历,这成为制约Fp树算法效率的瓶颈。改进后的算法采用空间换时间的方法在每个节点上添加一个标记位来标识该节点是否被遍历,首先通过遍历Fp树找到所有叶子节点,然后从头表找出树中的叶子节点,从叶子节点开始回溯树中的路径,将同一条路径存储在一个线性链表中,从而减少同一条路径的遍历次数。实验显示:改进后的算法对于稀疏事务数据和稠密事务数据都能有效的提高挖掘效率,虽然增加了标记位的空间消耗,但是同时减少了条件Fp树的生成,因而空间性能也有所提高。
入侵检测是数据挖掘的一个重要应用方向,而挖掘算法效率的提高则是其中的一个研究热点。本文分析了当前入侵检测的研究进展,采用Jpcap开源库设计了入侵检测的数据采集模块。将改进后的Fp算法应用于入侵检测中的关联规则挖掘中,采用主轴因子和参考因子有效地过滤频繁项集来获得规则集,通过模式比较来获得入侵行为。采用林肯实验室的1998年的网络实时数据进行实验,将改进后的Fp树算法应用到关联规则的模式库挖掘中,采用不同的支持度来挖掘训练数据集和测试数据集。实验结果显示,对于入侵数据,改进后的Fp树算法比原Fp树算法挖掘效率更高。检测结果显示,改进后的算法具有良好的检测率和较低的误检率。