基于频繁模式链表的最大频繁项目集快速挖掘算法

来源 :第二十二届中国数据库学术会议 | 被引量 : 0次 | 上传用户:zhangyiyuxia
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
频繁项目集挖掘是关联规则挖掘应用中的重要研究内容之一.目前,已提出了大量挖掘频繁项目集的算法,比较经典的算法有Apriori算法、FP-Growth算法等,主要从以下几个方面进行改进:(1)减少扫描数据库的次数,降低I/O负载代价,提高算法速度;(2)有效计算项目集的支持数,避免产生组合爆炸;(3)提出新的数据存储结构.在上述诸多算法中,计算项目集的支持数是发现频繁项目集中最耗时的工作,占据整个计算量的大部分工作.因此,不生成候选项目集或降低候选项目集的数量是减少开销的最好的手段.挖掘频繁项目集的缺点是,要考虑太多的候选项目集(大小为1的频繁项目集的21个候选子集都要考虑).由于最大频繁项目集中已经隐含了所有频繁项目集,因此可把频繁项目集挖掘问题转化为最大频繁项目集挖掘问题,本文使用更简单数据结构--频繁模式链表来存储包含最大频繁项目集的信息,并提出了一种新挖掘算法FPL-DMFI.采用了位串(bitstring)技术和位与操作,同时采用了压缩技术来缩小搜索范围,有效地提高了判断是否是最大频繁项目集的效率.该算法能通过并行投影和压缩技术扩展到大数据库中进行最大频繁项目集挖掘.由于FPL-DMFI算法处理长位串时挖掘效率相对不高,作者下一步的工作着重研究这方面的内容,同时研究最大频繁项目集挖掘算法如何应用于电力系统负荷预测模型中.
其他文献
本文研究了Rough set理论和分析方法在信息系统挖掘中的应用,在提高Rough set挖掘效率上进行了有益的探索.在进行知识挖掘前对系统进行浓缩,不仅提高了后续挖掘的效率,更重要的是建立了一个属性集上新的机制,在此基础上给出新的递减式属性约减算法,此方法不仅效率明显高于传统的方法,更重要的是保证了属性关联挖掘的质量.
信息系统的广泛应用和互联网技术的发展,促进了人们对完整获取分布、异质信息的需求,特别是完整获取半结构化甚至非结构信息的需求,这就促进了信息集成(InformationIntegration)技术的产生.信息集成过程一般包括信息源描述、信息采集、信息过滤与清洗及信息存储等.然而,信息集成技术并不仅仅是为各个信息源提供一个接口就可以简单实现的,更重要的是如何构建全局环境下各信息源之间的互操作性,由于各
作为网络环境下的数据交换格式,XML近年来得到了广泛的应用.在许多项目中,XML数据被用作关系数据的半结构化视图.当使用XML表示由关系数据库管理、存储的数据时,为了保持数据完整性方面的语义,要求XML支持关键字(key)与外部关键字(foreignkey).目前关于XML关键字与外部关键字的建议规范有多个.各种XML模式定义语言,比如DTD,XMLData和XMLSche-ma,都支持声明关键字
随着面向服务的应用(SOA)技术的不断推广,Web服务在电子商务中扮演着越来越重要的角色.目前,已有很多应用集成开发环境都支持Web服务开发、调用及其发现技术,例如,微软的.Net技术、Borland公司JBuilder技术都支持Web服务的嵌入查找,并提供Web服务操作的调用接口.但是这些服务发现技术都只能找到单个Web服务,不能实现对这些服务组合的搜索.另外,还有一些支持服务发现的搜索引擎技术
在过去的几十年中,人们在建立符合特定应用需求的细粒度存取控制方法方面作了大量的尝试并取得了很大的成功.也正是由于这些存取控制是面向特定的应用,因而不易在DBMS层实现,只能把安全策略作为应用代码的一部分来实现,而在DBMS层的细粒度存取控制功能被弱化甚至放弃.但是应用层的安全策略,特别是在Inter-net应用环境下,容易被篡改和绕过;而且在应用层,这部分代码自身的安全性也难以得到保证,可能被开发
本文对BLP模型进行了面向多级安全关系数据库的改进,根据关系数据库客体之间的特殊关系修改了BLP模型的客体集的描述,修改了系统状态,公理和状态转换规则并证明了改进后的状态转换规则是"安全性保持"和"*-性质保持"的,进而证明了改进模型所给出的系统是安全的.提出的改进模型使得数据库中的数据在被共享的同时,可以较好地得到自主访问控制和多级安全访问控制的保护,虽然上述改进只是一个初步的改进,但对于进一步
实时任务往往具有各种结构上的相互联系,传统的平坦事务模型已经不能满足这种具备结构复杂性的实时任务的需求,这就要求采用具有内部结构的嵌套事务模型.嵌套事务在事务隔离性、事务提交和夭折上具有与传统平坦事务不同的语义,因而在嵌套事务的调度、并发控制和恢复等方面需要提供新的策略和实现技术.目前,国内外对嵌套事务的恢复策略和实现技术的相关研究不多,而针对嵌套实时事务恢复的研究则更是鲜见.本文提出了一个适合于
网格计算是分布式计算的一个新的阶段,网格需要解决在动态的虚拟组织中控制和协调对资源的共享.第一代网格的主要目的是将一些地理上分布的超级计算中心连接起来,共享这些超级计算中心的计算资源;第二代网格采用具有标准化接口的中间件来处理规模和异构带来的问题,可以支持需要进行大规模计算和海量数据处理的高性能应用程序;第三代网格采用面向服务的方法,具有自主计算的特征.本文研究基于XML DATABASE的网格数
数字化多媒体信息和资源的数量正在飞速增长,多媒体数据的管理越来越受到人们的关注.而在拥有大量数据的图像数据库中进行有效检索是其中一个具有挑战性的问题,是数据库管理新型多媒体数据类型必须妥善解决的问题之一.本文提出了一种图像检索模型.针对图像的底层特征和上层语义概念之间的差距,在模型中增加了一个概念层来建立图像底层特征和上层语义之间的联系.同时,利用贝叶斯网络的特点,通过相关反馈来提高整体模型的检索
在现代政府办公或企业管理中普遍使用电子信息技术来实现业务流程自动化,这些场合需要详细描述业务流程并严格按照业务逻辑执行各项任务.工作流技术具有精确描述、优化流程、分离业务逻辑和任务、集成异种应用等方面的优势,因此,工作流管理系统(WFMS)在政府、金融、医药、物流等领域得到了广泛应用.之前实现的一种集中式的工作流管理系统已经应用到某金融部门,本文介绍的方法为原有系统提供了一种完善、升级的方向.目前