DELAY-CFIM:基于滑动窗口的高速数据流闭合频繁模式挖掘方法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:haoyigyaoatcs31
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,很多应用领域都产生了大量流数据,因此流数据挖掘成为数据挖掘领域的热门研究课题。其中流数据闭合频繁模式挖掘是流数据挖掘领域的一项关键技术,被广泛应用在商业决策,购物篮分析和网络数据分析等多个领域。流数据闭合频繁模式挖掘要求在快速到达的数据流中高速的存储有用的数据信息,在客户有需求的时候进行闭合频繁模式输出,以指导客户做出决策。但是现存的流数据闭合频繁模式挖掘方法存在在线处理时间过长的问题,从而不能处理数据高速产生的情况。  本文深入分析了现有的流数据闭合频繁模式方法,针对现有方法存在的在线处理时间较长的问题提出了一种新的解决方法 DELAY-CFIM,将流数据闭合频繁模式挖掘分成数据压缩与闭合频繁模式挖掘两个步骤。首先,在数据产生时对其进行简单的统计和压缩。然后,在客户提出查询要求时,再进行闭合频繁模式挖掘,从而能够处理数据高速产生的情况。在客户查询不是很密集的情况下可以产生很好的结果。  本文的主要研究内容如下:  (1)本文提出了一种新的基于滑动窗口概要数据存储结构 OTT。OTT在数据到达的时候被用来存储数据频度信息,达到数据统计与压缩的作用,使得在客户提出查询请求时可以缩短闭合模式挖掘所需时间。  (2)本文提出了一种新的闭合树模型 CFIT。CFIT结合了链表与树,将闭合模式进行存储,在有需要的时候对频繁模式进行检测以判断它的闭合性,CFIT的特殊存储结构能够大大加快闭合模式检测的速度。  (3)本文提出了一种基于 OTT和CFIT的闭合频繁模式挖掘方法 DELAY-CFIM。首先在OTT上通过后缀重新插入的方法产生频繁模式,再通过 CFIT对这些模式进行闭合模式检测。从而在客户提出查询请求时正确输出闭合频繁模式。  (4)本文在上诉提出的闭合频繁模式挖掘方法的基础上提出了四种剪枝策略,既减少了OTT上产生的潜在闭合频繁模式数量又缩短了闭合检测所需时间,从而大大减少了算法运行时间。  本文最后将所提出的算法 DELAY-CFIM与经典流数据闭合频繁模式挖掘算法CFI-Stream进行了比较。结果显示在客户查询不是很密集的情况下,本文算法可以大大减少数据在线处理时间,从而可以对高速产生的数据进行有效的处理,避免数据丢失的情况产生。
其他文献
随着互联网的高速发展,网络信息成爆炸式增长,百科知识已经成为人们获取知识的重要手段。人们对垂直化知识的需求对百科知识库提出了新的要求。目前网络上的百科知识库都是由
随着金融活动的复杂化,金融市场与金融交易规模的日益扩大,金融机构面临的风险也日趋加大。自2007年8月爆发的全球金融危机,许多著名的国际金融机构都因对资产的风险管理不足
时至今日,海量数据时代的来临已经毋庸置疑。高速计算技术和先进的自动感应技术使得产生和收集大量数据成为可能,各行业获得数据量呈指数增长趋势。在最近的20年里,全球总的
入侵检测系统的开发旨在发现具有安全隐患的入侵行为,高水准的黑客技术和利用社会工程学等手段的入侵,使得传统安全设备无法完全阻止不断增加的入侵行为。入侵检测系统在大型
近些年来,基于角色的访问控制技术(Role-Based Access Control, RBAC)作为一种高效的安全控制策略得到广泛的关注,特别是在拥有用户众多的大型企业中得到青睐。RBAC策略在简
现代处理器上提供了多种功耗调节机制,使用这些技术可以在运行时根据需要调节处理器功耗以适应不同的应用场合和需求。功耗封顶技术是其中一项重要的应用。控制部件功耗可以
随着信息技术的飞速发展,人们对计算机的要求不再是仅仅满足于大量的计算以及海量的数据存储查找,人们希望计算机能够模拟人类的某些能力,于是计算机的应用范围不断拓宽。其
随着网络技术的发展,网络信息正在以几何级速度迅速膨胀。如何通过信息融合进行在线信息的处理,特别是进行数据量巨大的文本信息处理,已成为一个亟待解决的难题。文本聚类作
网络编码(Network Coding)是一种能够提高网络吞吐量的新兴技术。通过对接收到的信息进行某种编码操作,将不同的数据融合一起再发送。接收端通过接收编码包来进行解码操作从
随着视频监控技术的广泛应用,智能视频分析技术正受到越来越多的青睐。视频图像序列中的异常行为检测技术成为智能视频分析领域中一个重要的研究方向。该技术能够在异常行为