数据流中基于优化的FP-tree的频繁模式挖掘方法研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户:asqbt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在现实世界和工程实践中,可以产生大量的数据流,它不同于传统的静态数据。如何快速、高效地挖掘数据流中的频繁模式是数据流挖掘的重要问题。本文将研究重点放在数据流中基于优化的FP-tree的频繁模式挖掘算法设计上,其研究成果对于电子商务、商业智能以及市场决策等领域具有重要意义。首先,为了改善数据流中频繁模式的挖掘效果,提出了基于衰减因子的数据流中频繁模式的挖掘方法DS-FPM。构造了一种数据结构DSFP-tree用于压缩存储数据流中的潜在频繁项集。为了使挖掘结果既保留历史细节,又节省算法的存储空间,本算法引进衰减因子将算法所需要的内存空间控制在一定的规模之内。算法采用数据分段的思想,先对上一个分段得到的DSFP-tree用衰减因子λ进行选样,再得到最新的数据分段的临界频繁项集,然后将两者都插入到新的DSFP-tree中,最后挖掘出DSFP-tree中的频繁项集。其次,为了减少保存数据流中项集信息所需要的内存空间,构造了一种存储潜在最大频繁项集的结构DSMFI_tree,基于DSMFI_tree结构提出了一种数据流最大频繁项集挖掘算法DSMFI-Miner。算法同样采用数据分段的思想,以数据分段为更新单位,动态更新全局DSMFI_tree,通过遍历DSMFI_tree,快速挖掘出数据流中的所有最大频繁项集。最后,本文使用C语言对上述算法进行实现,实验数据集选择采用IBM test data generator生成的数据集,对提出的DS-FPM算法和DSMFI-Miner算法进行了实验测试。
其他文献
.NET平台作为微软新的开发平台,其战略思想就是把所有设备通过一个全球宽带网(Internet)连接在一起,同时所有的软件都将成为在该网络上提供的一种服务。Web服务即是实现该战略
随着人类基因组计划实施的不断深入,生物学的数据信息飞速增长,如何从这些海量数据中提取有用的知识,揭示这些数据所蕴含的生物学意义,是对计算机科学的巨大挑战。从结构上来挖掘
随着校园网信息化建设的深入,对于安全方面的要求越来越高,即需要保证信息的机密性,完整性,不可否认性。而校园网中的网络应用无论是从种类,还是从数量上来看,都是非常繁多的,不可能
近年来,数据挖掘(Data Mining)引起了信息产业界的极大关注,其主要原因是数据海洋的日益增大,我们需要新技术将海量数据转化为有用的信息和知识。分类是数据挖掘的主要任务之一,
  随着Internet技术的发展,以软交换为核心的下一代网络(NGN)技术成为网络发展的必然趋势,它的出现为新业务提供了一个良好的承载平台,这使得以语音邮件服务为代表的各种新兴
随着基因组研究的深入,生物序列的数量呈现爆炸式增长,迫切需要使用高效的计算机算法对其进行处理。生物序列比对是一个重要的,具有挑战性的基本问题,对于推测核酸和蛋白质序列的
三支决策理论(Three Way Decision,TWD)是二支决策的拓展。在实际应用中,由于信息的不完整和不确定性,人们常常无法立即作出拒绝或接受的决策。所以,当信息不完整不精确时,使
  随着Internet的持续发展和网络应用的迅猛增长,网络管理也日趋复杂,作为网运营商已经提出了对网络管理和流量分析技术的需求,并要求这一技术能有效提供记录网络资源使用状况
目前,嵌入式技术在数字网络领域已经得到了广泛应用,然而国内外嵌入式产品在安全性、完善性和实用性等方面还存在着一些缺陷,这使得开发建立在自主研发的操作系统内核上的嵌
信息系统在各行各业中的应用越来越广泛,同时信息系统的安全问题如信息泄漏、数据篡改、身份假冒、越权访问、网络钓鱼等也与日俱增。很多信息系统还存在着服务提供方和服务使