论文部分内容阅读
随着信息技术在各领域的高速发展,频繁模式挖掘技术在实际生活中得到了广泛的应用,如在生物学中用于疾病的预防和治疗,金融行业则用于防止和规避金融风险以及在军事领域中的异常检测等。对时序数据的挖掘分析已经成为一个热点研究问题。其中,实时数据的频繁模式挖掘是基本问题之一,因此对数据流的频繁模式挖掘方法的研究具有更高的挑战意义。本文研究频繁模式挖掘技术在实时信号数据中的应用,希望通过挖掘实时信号数据的频繁模式提高雷达信号数据的质量,发现入侵行为,为设备的故障诊断及辅助军事侦察等提供可靠信息。基于时序数据的频繁模式挖掘,本文对时序数据预处理的方法进行研究,并对已有的最大频繁模式挖掘算法和闭频繁模式挖掘算法进行了改进,主要工作包括:1.研究静态数据集中的频繁模式挖掘算法,在基于模式增长的Prefixspan算法上提出了一种改进的S-Prefixspan算法挖掘最大频繁模式。该算法在Prefixspan算法的基础上做了两点改进:针对现存Prefixspan算法在挖掘的过程中需要扫描两次数据库以及会产生大量投影数据库而消耗内存,提出了一种基于位图映射思想的链式存储结构,该数据结构中存储频繁项在序列中的位置,通过该数据结构减少投影数据库的构建及一次扫描即可,节省了内存,提高了运行效率。同时,为了提高搜索的效率,在生成频繁模式的过程中,通过有效的剪枝操作可以进一步提高查找的效率。2.研究数据流中的频繁模式挖掘算法,在Moment算法的基础上提出了一种改进的OS-Moment算法挖掘闭频繁模式。改进的算法主要针对Moment算法在挖掘的过程中存在搜索空间比较大,中间无用结果比较多和只能挖掘无序序列等问题做相关的改进。改进的算法利用二进制位表示各个项便于计算项集的支持度数,提高了运行效率;设计链式存储结构维护项的序列信息有效的解决了原算法只能对无序序列挖掘的弊端;提出一种新的索引模式树的存储结构来存储闭频繁项集加快了结果的查询及结点信息的更新。同时,在挖掘过程中通过合理的剪枝策略,避免生成大量的无用结果,进一步提高了算法的运行效率。3.在雷达实时信号数据中对改进的算法分别做了相关实验,分析改进算法在时间和空间上效率的提升。