频繁项集挖掘算法研究

来源 :中国石油大学(华东) | 被引量 : 0次 | 上传用户:garnettxin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的飞速发展,特别是数据库技术与应用的广泛普及,人们面临着迅速扩大的数据海洋。为有效利用这些丰富的海量数据为人类服务,数据挖掘技术应运而生。关联规则作为数据挖掘的一个分支已成为近些年来的研究热点。关联规则挖掘的工作主要是由两个步骤组成:第一,找出所有的频繁项目集;第二,由频繁项集生成强关联规则。在这两个步骤中,找出所有的频繁项目集是关联规则挖掘的最基本也是最重要的问题,一直是近些年数据挖掘领域的重要部分。本文介绍了频繁项集挖掘的基本概念,并对经典频繁项集挖掘算法进行了综述,在数据挖掘领域中增量式数据挖掘和数据流挖掘两个方面进行深入的研究。具体的研究工作如下:第一,关于增量式频繁项集挖掘,目前多数算法都是基于FP-tree的,本文提出的Pre-FIUT算法是通过引入频繁超度量树结构,提高了挖掘效率;我们基于次频繁项集思想使用了次频繁项增量地进行频繁项集挖掘,在一定程度上避免了再次扫描数据库。实验表明Pre-FIUT算法能快速扫描和更新数据,合理利用内存,精确获得频繁项集。第二,关于数据流的频繁项集挖掘,结合数据流的特点提出了一种基于滑动窗口数据流的频繁项集算法FIUT-Stream,FIUT-Stream算法将滑动窗口数据压缩在位表中,通过引入将数据分成等长的数据块的思想更新滑动窗口,使用改进的FIUT算法进行数据挖掘。实验表明,FIUT-Stream算法达到时间和空间相对均衡。本文上述两种挖掘算法,都属于频繁项集挖掘算法。两种算法基于静态挖掘算法,结合增量式数据和数据流的特征对FIUT算法加以改进,提高频繁项集的挖掘效率。
其他文献
信息爆炸时代的到来使人类社会的电子数据积累速度变得越来越惊人,人们希望可以利用数据库中的历史数据发掘出潜在的商业价值。TPC-H基准测试是事务处理性能委员会的重要测试标
随着数码相机的普及,功能强大的图像处理软件的出现,越来越多的人可以方便的对数字图像进行编辑处理。数字图像的安全问题也因此成为当前图像学界的一个热门且紧迫的话题。在数
近年来,伴随P2P技术的不断进步,针对P2P网络的攻击和利用其传播恶意代码的行为与日俱增。恶意代码中的蠕虫破坏性非常大,已经变为P2P网络和应用的重要威胁,严重影响了该技术的发
在现在社会中,社交网络已经成为人们快速沟通、交流的重要方式之一,通常社交网络可以理解为一种互动的多用户网站,它将用户的特征和兴趣结合起来,将用户的社交活动转变为相对
观看体育节目已经成为现代人生活娱乐的一种主要方式,随着体育视频节目的飞速膨胀,如何帮助用户找到他们感兴趣的比赛或比赛的精彩片断,成为一个亟待解决的问题。人工处理视频以
人工蜂群算法(Artificial Bee Colony algorithm,ABC)是一种模拟蜜蜂群体合作觅食行为的群体智能优化算法,由土耳其学者Karaboga于2005年首次系统地提出。由于其操作简单,控
在图形学的各类应用中,绘制具有真实感的物体都需要对物体的反射材质进行建模。传统的建模手段往往依靠艺术家的经验与技巧,有较高的难度且效率低下。然而随着虚拟现实、增强
本文描述了基于Web Service的校园能耗监测系统的设计和实现。本系统是依托已有的校园数据传输网络,利用Web Service技术开发的节能监测管理平台。系统可对多个校区的大量建筑
情感是人类智能的一部分,情感能力对于自然的人机交互至关重要。情感计算是指根据用户的外在情感表现,进行情感感知和分析并能对用户情感施加影响的计算,视频情感语义标注和情感
随着建筑科学的不断发展,建筑结构设计越来越新颖独特,工程规模也越来越大,相应地,建设工程施工程序就变得更加复杂。一项建筑工程在施工过程中涉及到很多参建单位的组织协调,大量