大型数据库关联规则开采算法的研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:hzau1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文在经典关联规则的基础上,提出了一系列扩展的关联规则开采算法:发现关联规则的难度体现在发现频繁项目集上,事实上最大频繁项目集(其所有的超集都为非频繁项目集的频繁项目集)的集合已经包含有所有的频繁项目集,该文提出了一种发现最大频繁项目集的算法DMFI(DiscoveryMaximalFrequentItemsets),该算法采用自底向上和自顶向下的相结合的搜索策略对数据空间进行有效的搜索.接着,提出了一种支持度和置信度的界限算法,它利用已经计算出来的频繁项目集的支持度信息来预测将要计算的项目集的支持度和规则置度度的上下界限,从而可大大减少频繁项目集生成的数量和数据开采时间.该文提出了加权关联规则的概念,包括竽加权关联规则和水平加权关联规则,把包含以上两种情况的关联规则叫混合加权关联规则.并提出了一种解决该问题的加权关联规则开采算法MWAR(MixedWeightedAssociationRules).数据开采发现的知识可分为两种:常规性规则和例外规则.例外规则是数据集合中少数数据所保持规则,虽然也有很高的可信度,但由于其具有较小的支持度,因而常常被忽略.由于它出乎人们的意料,所以非常有用.该文提出了一种开采例外规则的算法.针对降低关联规则开采时间的问题,该文提出一种新的算法ACT(AlgorithmforClusteringTransaction),该算法利用聚类树的概念先把海量数据集合聚集到一个较小的交易集合中,然后在新的数据集合中开采关联规则,该算法可急剧降低规则的开采时间.该文提出了一种开采优化关联规则的算法.另外,提出了从多数据源中识别与特定开采任务相关联的数据源的相关性检测方法,该方法使用在数据开采的数据准备阶段.最后,提出了一个开采关联规则的系统框架.
其他文献
在分布式实时系统中,如果任务到来不均衡地分布到结点上,那么有些结点可能过载,而另外一些结点处于空载或轻载状态,这时,即使整个系统完全有能力完成所有任务,也有些任务不能在截止
随着网络的宽带化和综合化,人们在ATM交换结构的设计上越来越倾向于易于硬件实现的输入排队交换结构。作为前期“人力优先”和“空间优先”研究的接续,本论文主要报告采用“时
该文先分析了目前界面生成相关研究的现状,对比了当前用户界面设计方法和工具的优势和缺陷,并从用户的角度出发,研究了用户界面设计的需求和界面自动生成的理论依据.然后在现
该课题重点结合目前IP电话在世界上的发展状况和发展方向,从传统电话和IP电话的区别和结合入手,重点针对IP电话利用分组网络传输的特点,详尽分析了在穿透IP网络时,为了保证话
在论文的前几个章节,我们介绍了两个相关的理论:实例隐藏理论和计算复杂性理论.其中给出了实例隐藏的概念和主要结论,以及确定性计算的时间和宽间层次定理.在对这两个理论讨论
CORBA是目前分布式对象技术中主流的分布对象体系结构之一,它将对象技术引入到分布计算中,极大的便利了面向对象的分布式应用的开发。而CORBA构件模型的提出,促进了软件开发的可
该文首先对"IEEEStandardSignalingMethodforaBidirectionalParallelPeripheralInterfaceforPersonalComputers"(简称IEEE1284-1994标准)进行了分析,然后采用美国WarpNineEng
电子邮件是Internet的重要应用,电子邮件服务深刻影响着互联网的商业,教育,科研等活动。随着Internet的不断发展,传统单机上实现的电子邮件系统越来越难以满足应用的增长需要,传统
身份认证是网络安全的基石,是网络通信双方在通信时验证对方身份的技术。Kerberos是基于可信第三方KDC使用对称密钥加密算法的认证协议,适合在一个物理网络并不安全的环境下使
数字化网络系统作为一种信息共享平台被应用到信息化建设中,数据信息的日益复杂和管理对象的繁多也越来越成为信息管理所面临的一个问题,ETL(Extraction-Transformation-Load