数据挖掘中关联规则算法的研究

被引量 : 0次 | 上传用户:guojunaaaa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
“数据爆炸、知识贫乏”是信息时代所面临的一个严峻的问题,数据挖掘是解决该问题的一种十分有效的手段。数据挖掘就是数据库中的知识发现,是从海量数据信息中挖掘出潜在、有用知识的过程。该技术能发现隐含的、先前未知的、对决策有潜在价值的知识以指导实际问题的求解,因此对数据挖掘技术的研究有着重要的应用意义。本课题着重对关联规则挖掘算法进行了研究,详细探讨了关联规则挖掘中经典的Apriori算法,介绍了它的基本原理,存在的不足和算法发展的瓶颈。针对算法的缺陷介绍了已经存在的改进算法,如采样方法、划分方法和散列方法等。然后对Apriori算法的两个主要不足之处,即产生大量候选集和大规模数据库在挖掘过程中保持不变,介绍三种方法,以求能降低算法的时间复杂度。1、减小候选集算法。挖掘过程中产生大量候选集,在访问数据库统计候选集的支持数之前,运用新的算法减小候选集数目,从而减小访问数据库的次数。2、精简数据库算法。随着挖掘过程的不断深入,数据库中有些数据记录可能不再需要,因而我们可以删除无用的数据记录。不断减小数据库的规模,减小访问数据库的次数。3、数据的垂直表示方法。扫描数据库得到频繁一项集,同时将数据从水平格式变成垂直格式,此后的频繁集产生不再需要访问数据库。
其他文献
按照迈克尔·波特的竞争战略理论,企业的竞争战略分为成本领先、标歧立异和目标聚集三种基本战略,成本领先战略是三种基本战略中最明确的一种,成本优势是企业获取持续竞争力
股权激励,作为长期薪酬激励制度最重要的方式,是近两年多来中国上市公司中涌现的一个新热点。股权激励就是让经营者持有股票或股票期权,使之成为公司股东,将经营者的个人利益
随着经济稳定快速的发展,企业面对国外跨国公司的竞争,现代物流在经济发展中起着越来越重要的作用。我国现代物流的发展正处于起步阶段,应采取有力的措施,在全球范围内通过统
武当山金殿是道教圣地武当山的标志性建筑之一,地处边陲的云南却与之结下了深厚的缘分。武当山金殿的青铜栏杆大多为滇人捐建,此前金殿主体建筑的铜材也至少部分来源于云南。
目的:探讨支气管动脉灌注化疗及化疗栓塞术治疗肺癌临床效果。方法:对照组:根据不同病理类型分别采用相应方案静脉化疗;观察组:经皮股动脉穿刺插管,支气管动脉造影和灌注化疗
纳撒尼尔?霍桑的代表作《红字》是美国文学史中最引人注目的奇葩之一,作品自1850年问世以来,受到了评论界的广泛关注,许多评论家从各个不同的角度对其进行了深入细致的研究。
本文探讨了在跨文化传播中大众媒介在刻板印象形成过程中所起的重要作用,并且列举大众媒介对特定国家、社会群体、性别等的再现方式以及由此引起的受众头脑中的刻板印象,并试
围绕铜的生理作用及毒性、抗铜基因在植物相关细菌中的分布、植物相关细菌的抗铜机制、植物相关细菌铜抗性与动植物的关系、植物相关细菌铜抗性的应用等方面进行了概述。
研究了区域农业规划中土地资源、水资源、饲草料资源等3种重要农业资源的供给量、需求量测算及平衡分析方法,并以《宁夏吴忠市孙家滩农业综合开发区总体规划(2011-2015年)》
目的:通过观察耳针、中药对糖尿病脂代谢紊乱大鼠血清载脂蛋白、胰岛素敏感指数(ISI)等的影响,初步探讨耳针、中药防治糖尿病脂代谢紊乱的可行性和可能的作用机理。方法:通过