论文部分内容阅读
数据流模型的出现给传统的数据挖掘技术带来的巨大的挑战。由于数据流连续不断的到来,已有的数据处理技术难以对这些潜在无限的、变化的数据进行有效的管理和挖掘,因此,必须对数据环境下的数据处理技术进行研究。目前数据流管理和挖掘技术已经引起了国内外研究人员的广泛关注,成为了当前的一个研究热点。对于这两方面技术研究不仅具有重要的理论价值,而且在很多应用领域,如传感器网络、气象的监测与分析,网络监控与安全,Web日志分析等,有着巨大应用前景。本文在对数据流挖掘领域若干问题进行探讨的同时,主要研究了数据流中top k项频繁闭合项集问题,提出了相应的解决算法并结合实验结果做了必要的分析。概括地说,本文主要涉及到如下几方面内容:(1)对比传统挖掘中使用的大小固定的数据集,分析了数据流的特点。介绍了目前存在的几种数据流模型以及常用的数据流处理技术。数据流本身的特点也对数据流挖掘算法提出了一些要求。(2)分析和总结几个传统的频繁模式挖掘算法和数据流中的频繁模式挖掘算法,了解挖掘过程中涉及到的数据集的压缩方法,历史信息的存储结构和存储方法,新数据到来时数据结构的维护与更新,剪枝策略,结果集输出等方面内容;(3)频繁闭合模式包含频繁项集的完整信息,由它能够得到所有的频繁模式及其支持度信息,并且数量往往比频繁模式小几个数量级,在实际应用中更容易理解和应用。本文研究了动态数据流环境下top k项长度不小于给定值的频繁闭合模式挖掘问题,提出了基于滑动窗口技术挖掘算法,来挖掘最近一段时间内用户感兴趣的数据中的频繁信息,将用户期望的k个最频繁的闭合项集显示给用户,考虑到一些长模式的挖掘,它们子集模式可能由于具有不同的支持度也成为了闭合项集,且子项集的支持数较高,则子模式较易被输出,为避免输出结果都是些较短的模式,给定参数min1以设定输出模式的最小长度。算法具有较好的灵活性和可扩展性,用户可以根据需要,通过调整给定的参数值,让算法在执行效率和挖掘结果之间取得平衡。