关联规则Eclat算法改进研究

被引量 : 0次 | 上传用户:lzjsja
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是从海量数据中获取有效的、新颖的、潜在有用的知识,并最终形成可理解的模式的非平凡过程。现今的数据库系统已经能够实现查询、统计和报表,但处理方式相对单一,都只是对一定范围内的数据进行简单的数字化处理,而不能提取隐藏在这些数据背后的内在信息。随着各行各业广泛应用信息管理系统,带来了数据量的急速膨胀,人们迫切希望有一种功能,它能够提供更高层次的数据分析,从而更好地支持决策或科研工作。关联规则挖掘是数据挖掘中关联分析的运用,是数据挖掘一个非常重要的学科,具有很高的理论价值和广泛的应用前景。关联规则反映一个事物与其他事物之间的相互依存性和关联性。如果两个或多个事物之间存在着一定的关联关系,那么其中一个事物就能够通过其他事物预测到。关联规则挖掘算法用于发现关联规则,诸多的研究人员和学者对其进行了大量的研究。现有的关联规则算法大多数是基于Apriori和FP-growth的迭代算法。通常数据库有水平数据表示和垂直数据表示两种形式,本文深入分析了频繁项集的挖掘问题,描述了现有的关联规则分类和挖掘算法,并着重对传统Apriori算法和AprioriTid算法进行分析,指出了他们各自的优缺点。对于挖掘算法的性能,通常采用垂直数据表示的算法要高于水平数据表示,Eclat算法是首个采用垂直数据表示的经典关联挖掘算法。本文首先对Eclat算法进行了深入地研究和分析,并在此基础上提出了一种改进算法——hEclat。该算法把散列表与布尔矩阵相结合,提出散列布尔矩阵的思想,对传统Eclat算法中求两个Tidsets集合交集的操作进行改进,以提高求交集的速度,从而达到提升整个算法生成频集、挖掘关联规则的效率。对关联规则挖掘而言,已有的很多研究只注重解决算法的时间效率,而忽视了关联规则的多维特性,通过在关系数据库中提取出用户感兴趣的多维关联规则,在商务决策方面将更具指导意义,也更能够满足实际情况的需要。本文在传统Eclat算法基础上提出MD-Eclat算法,并构造了一种新的数据预处理方法,实现从关系数据库的普通表或视图中进行多维关联挖掘。由于算法利用了垂直数据表示的结构特征,因此不必对数据库进行多次扫描,也不必频繁构造模式树,只需要扫描数据库一次,改进后的算法执行时间效率高于同类算法。
其他文献
随着我国市场经济的不断发展、道路交通运输事业的不断进步以及国家政策的不断完善,我国铁路工程建设无论是速度还是规模上都取得了重大突破。工程造价作为铁路工程建设中的
我国中小企业在加快经济发展,在提高经济增长效率、提高解决就业等方面发挥着重要的作用。但是,在中小企业发展的过程中却遭遇了几大难题:用地难、融资难等等。在市场经济条
目的比较四种肠道准备方法在老年人胶囊内镜检查术前肠道准备的疗效。方法将80例老年患者随机分成4组,各组20例,其中Ⅰ组口服20%甘露醇;Ⅱ组口服番泻叶;Ⅲ组口服复方聚乙二醇
电子商务是信息网络时代发展的产物,对传统会计环境、会计理论、会计实务以及会计人才带来了极大的影响和冲击。随着企业电子商务活动的广泛开展,企业必须大力发展电子商务会
不公允的关联交易现象在我国上市公司中普遍存在,并成为上市公司粉饰其会计报表、操纵利润的最常用最重要的手段之一。不公允的关联交易不仅有害于社会经济秩序的健康发展,也
本文仅就推进实施路径,实施过程中应注意的问题和方法,对建立提案改善工作机制进行浅要论述。
[目的]:观察FOLFOX4和XELOX新辅助化疗方案治疗局部进展期胃癌的疗效和毒副作用。[方法]:对68例初治确诊为局部进展期胃癌的患者,随机分为两组,每组各34例,分别采用XELOX和FOLF
本文从“以学习者为中心”的视角对网络课程教学设计的问题做了研究,以远程教学理论、建构主义学习理论等作为理论基础,将设计模式的概念应用到网络课程的教学设计中,在国内
当今时代是一个知识经济时代,知识经济时代,企业保持持续竞争力的法宝已经从传统的有形资源转变为知识。自从20世纪90年代,知识管理成为企业管理领域一个重要研究分支以来,知
中国经济已经了令人瞩目的发展,GDP是平均值每一年超过10%的增长速度。经济的起飞,但是,在的服务贸易的益处,而不是占到多大比例服务贸易可以分为出口贸易的服务,其消费的服