关联规则挖掘算法的研究与改进

被引量 : 27次 | 上传用户:hhj9290
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据库技术的日益成熟和管理信息系统的广泛普及,人类积累的数据量正在以指数级的速度增长。面临浩渺无际的数据,人们渴望得到从数据中来一个去粗存精、去伪存真的技术。数据挖掘便应运而生了。数据挖掘是从数据中析取、识别和发现潜在正确和有用、前所未知的、最终可理解的知识(规则或模型)的过程。关联规则挖掘是数据挖掘中最活跃的研究方法之一。它是由Agrawal于1993年提出的。关联规则挖掘用于发现交易数据库中不同项目集之间的关系。关联规则的算法可按照需不需要产生候选项集的做法分为两类,以FP(频繁模式)树法与类Apriod方法为代表。此二者最主要的差异在于,FP树法并不产生候选项集,后者是需要产生候选项集的方法。本文在数据挖掘研究的基础上深入研究了关联规则挖掘,着重对经典关联规则算法中的Apriori算法进行了深入研究,对它的性能进行了分析,根据它的不足之处提出了两个新的改进算法。论文的主要内容如下:1)对数据挖掘的定义、过程、技术分类以及发展趋势进行了综述。2)对关联规则挖掘的定义,性质、挖掘过程、挖掘算法以及研究现状进行了综述。3)对经典的关联规则算法Apriori算法进行了详细的介绍,并分析了它的特点,同时还介绍了该算法的一些改进算法。4)根据Op-Apriori算法的特点,提出了Om-Apriori算法;根据MApriori算法的特点,提出了SMApriori算法。本文的主要创新点如下:1)根据Op-Apriori算法的特点,提出了Om-Apriori算法,用MAT算法来改进Op-Apriori算法中前两项频繁项集的生成,用文献[34]中的方法来改进κ(κ≥3)-频繁项目集的生成,Om-Apriori算法使得算法的效率进一步提高。2)根据MApriori算法的特点,提出了SMApriori算法,该算法利用不是所有的项和事务都对产生频繁项集有帮助的性质来缩小布尔矩阵的方法,使得算法的时间复杂度和空间复杂度都有所减少,从而提高了算法的效率。
其他文献
<正> 作为壮族作家的黄绍清教授积数十年埋头苦研之功,捧出了沉甸甸的力作《壮族当代文学引论》(由广西师范大学出版社1993年4月出版),在文坛上很快引起了巨大反响,获得了很
<正>随着科技的发展,企业的自动化水平不断提高,企业制造环境从过去的劳动密集型走向资本密集型和技术密集型,在新的制造环境下,产品成本中的间接费用所占比重不断加大,传统
期刊
<正>为了在2020年达到世界第一,柳井正全面压宝中国,让优衣库的"国际化"变成"中国化"。究竟这场赌注是赢是输,值得关注。日前,在距离优衣库(Uniqlo)母公司迅销集团(Fast Reta
虚拟现实课程体系是数字媒体专业的重要组成部分。文章在分析该体系课程特征、课程内容的基础上,结合哈尔滨工业大学媒体技术与艺术系实践教学平台的建设经验,对虚拟现实课程
斜拉桥的主要组成部分是主梁、斜拉索和索塔,是一种桥面体系主要受压,索体系受拉的桥式。其桥面体系由加劲梁构成,其支承体系由钢索组成。斜拉桥主梁、主塔受力对索力大小很
维特根斯坦揭示了当代西方语言哲学的一个难题:能否用以及如何用有限的语言去言说无限的、神秘的世界。中国古典哲学(美学)在讨论“言”与“意”的关系问题时,构建了一个独特的“
在管理学的发展过程中,出现了两种有代表性的研究方法:普遍主义研究方法和经验主义研究方法。本文在对两种研究方法进行比较分折的基础上,着重对经验研究方法作了分析和评价
本文对自由概念进行了学理考证。本文认为,康德是最先提出“肯定的自由”和“否定的自由”两个概念的哲学家,黑格尔的自由观是沿着康德的本体论和实践理性的大思路来展开的。只
苏州博物馆新馆是贝聿铭晚年的"封刀"之作,是继香山饭店之后又一次对中国建筑的诠释和贡献,其主要特色就在于传统与现代的完美结合,让传统符号与现代精神融为一体,在不失中国