论文部分内容阅读
随着序列模式挖掘技术的不断发展,加权序列模式已被广泛应用到生物医学、经济、网络等领域,成为数据挖掘领域中的一个研究热点。而在一般的加权序列模式挖掘算法中通常使用预先准备好的元素的权值来表示重要程度,忽略了或者没有很好地使用序列元素的生成时间和时间间隔,并且由于算法是基于单个项目的权值,不能体现序列整体的重要程度。此外当前的一些加权闭序列模式挖掘算法需要对数据库进行多次扫描或构建许多临时数据库,造成内存空间的巨大浪费。传统的序列模式挖掘算法不适用于数据流模型,且在已存在的数据流序列模式挖掘算法也没有很好地考虑带有时间间隔的权值对序列模式挖掘结果的影响。本文针对这些问题,对加权序列模式的算法进行了更深入的研究。首先提出了一种基于主存索引的挖掘时间间隔的加权闭序列模式算法,算法充分考虑了元素时间间隔的重要性,并定义了基于时间间隔的主存索引集p-tidx。在挖掘过程中,采用发现-索引策略递归地发现可以构成加权序列模式的项并为可能的加权序列模式构造基于时间间隔的主存索引集,并且使用时间间隔计算的项目的权值对算法进行优化,最后通过闭检测来得到时间间隔加权闭序列模式,精简了序列模式的数量。然后,针对数据流数据,提出了带有时间间隔的加权闭数据流序列模式挖掘算法,算法将时间间隔权值的约束引入到数据流序列模式挖掘中,并将滑动窗口和分段的思想应用到算法中,降低了算法的运行时间。同时为了挖掘出更紧凑的序列模式,通过闭检测技术进行相应的剪枝,得到更重要的或者用户更感兴趣的模式。最后,结合实际的应用,对提出的算法在软件安全漏洞的检测方面进行了实例分析。