基于事务数据分块的Apriori算法优化研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:bmw335
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关联规则挖掘是从大量事务数据中找出项集之间有意义关系的过程,它是数据挖掘的重要内容。关联规则挖掘除了应用于购物篮分析之外,还在商业决策、基因研究等领域有着广泛的应用。本文对关联规则挖掘,尤其是关联规则挖掘中的Apriori算法进行了系统和深入的研究。
  本文首先对数据挖掘进行了归纳和总结,包括数据挖掘的概念、功能、主要技术以及具体应用。然后对关联规则挖掘进行了深入探讨,介绍关联规则中的基本定义以及至关重要的先验原理。在此基础上,着重讲解了关联规则挖掘中最重要的频繁项集挖掘算法——Apriori算法。对Apriori算法进行详细讲解后,文章指出了该算法的两个缺陷:多次重复扫描原始事务数据库和产生大量候选项集。
  针对Apriori算法的以上两个缺陷,本文提出了基于事务数据分块的优化方案——BCL_Apriori算法。该算法通过引入B-Jaccard事务数据分块算法对原始事务数据库进行聚类分块,从而为并行计算提供了条件。将提出的BCL_Apriori算法和传统Apriori算法进行性能比较,经模拟实验验证,BCL_Apriori算法改进了传统Apriori算法固有的缺陷,提高了算法的执行效率。同时,并行计算的引入为传统Apriori算法在处理大型事务数据库所遇到的内存不足问题提供了有参考意义的解决方案。
其他文献
制造业是国民经济的主导力量,是实施创新驱动战略的核心领域。近年来,河南省致力于先进制造业大省建设,以先进制造业发展带动制造业整体转型升级。先进制造业企业的技术创新能力决定着先进制造业的发展,但技术创新的复杂性和资源的有限性使单个企业的技术创新活动日益艰难。因此,构建先进制造业企业技术创新网络成为先进制造业企业突破关键技术、提升自主创新能力的重要手段。  论文将企业内部创新网络和外部创新网络联结一体
人力资本投资是经济增长和个人发展最重要的问题之一。我国目前劳动年龄人口中至少受过高中程度教育的比例相比发达国家依然较低,且城镇和农村的教育水平发展极不平衡,农村教育投资和教育水平均远远落后于城镇。这不仅将制约中国长期经济增长,还将扩大城乡居民收入差距,给社会带来不安定因素。因此,一直以来,消除阻碍个体人力资本投资的因素之影响、全面提升个体人力资本投资行为是政府和学界均密切关注的重要议题。  个体人
近年来,我国出口贸易额持续大幅攀升,日益成为拉动我国经济增长不可或缺的重要力量,与此同时也带来了一些不容忽视的威胁与挑战,譬如愈演愈烈的贸易摩擦。显然,在国际经济形势多变、政治关系错综复杂的21世纪,聚焦我国出口贸易的波动问题对于确保我国出口贸易行业有序发展甚至是宏观经济平稳运行均具有重大的意义。  研究发现,国内学者大多从我国双边出口贸易情况入手,采用引力模型将双边贸易进行量化分析,往往过于注重
学位
经济全球化的快速发展带来了国际贸易的繁荣,也加剧了国际贸易市场的竞争。各国积极采用贸易救济措施保护本国产业,其中反倾销措施已经成为世界各国普遍认可的一种贸易救济手段。江苏作为全国外贸大省,进口额在2011年首次超过2000亿美元大关,之后呈现稳步增长态势,如此庞大的进口额对江苏本土产业造成的冲击不可忽视。因此,深入研究江苏对外反倾销的贸易救济效果对江苏本土产业的长远发展具有十分重要的意义。  本文
目前,我国经济已经步入新常态,大众创业,万众创新的蓬勃兴起为经济增长提供了新的动力。当前经济发展的主要任务是实现由高速增长向高质量增长的转变,推动大众创业,万众创新升级发展。2018年国务院出台的《关于推动创新创业高质量发展打造“双创”升级版的意见》明确指出要打造更高质量的创新创业,科技创新创业是以科技为核心的创新创业活动,对于推动高质量创新创业,促进经济增长具有重要意义。但是目前有关区域科技创新
学位
在生态约束趋紧的现实背景下,随着绿色创新对经济发展和企业竞争力影响的加深,在强化绿色创新技术效率以提升绿色创新能力研究的同时,绿色创新能力溢出问题也日益受到各界重视。本文以绿色创新效率表征绿色创新水平,基于改进后的超越对数随机前沿模型(SFA)测算2004-2016年中国30个省(市、自治区)的绿色创新效率,以此分析中国省际绿色创新效率的时空分布格局,进而以“经济”和“地理”距离的引力模型测度中国
学位
P2P网络借贷面向的客户范围非常广泛、借款门槛低、借款人数多,P2P网络借贷平台资金流能够到达上千万,甚至上百亿,对于我国整体的资金流产生一定的影响,在一定程度上解决了我国中小企业以及个人的资金问题。从这个角度来说P2P网贷行业对于推进我国经济的发展具有一定的积极价值。然而同时也存在诸多的弊端,我国P2P网络借贷发展非常的迅速,配套的法律监管制度难以跟上其企业发展的速度,P2P网贷平台在很长一段时
进入21世纪以来,中国人口老龄化经历了从开始出现到迅速加剧,经济社会即将进入未富先老的局面,为我国经济可持续发展带来严峻的挑战。对于人口老龄化是促进了经济增长还是阻碍了经济增长,国内外学者仍处于争论状态,没有统一定论,针对这一研究现状,论文将运用新兴古典经济学经济理论,基于CES生产函数构建一般均衡分析框架,从理论模型推导了人口老龄化对于经济增长的影响机制,实证方面利用包括日本在内的西方发达国家的
本文研究了混合数据下的协方差矩阵的估计问题,将经典的隐高斯模型推广到了隐椭球模型上.本文不需要事先假定具体的分布形式,在混合数据服从隐椭球分布的假设下,本文对连续变量和离散变量这两部分的隐协方差矩阵分别做了估计,而不是估计总体的隐协方差矩阵.具体来说,我们假设离散变量部分由隐变量得到,且连续变量和离散变量的隐变量均服从同一个椭球分布.首先我们结合高维协方差矩阵相合估计的基于阈值的方法与高维协方差矩
学位
线性回归是分析变量间统计关系的常见方法之一.当解释变量维数较高,并且解释变量不服从正态分布时,单一的变量选择或稳健估计方法的效果往往不尽如人意.本文针对回归中存在高维解释变量,并且变量间存在组结构的情形,给出了一种结合变量选择和稳健估计的方法.本文主要通过结合GroupLASSO和MM估计,得到了一种对回归参数新的估计——基于GroupLASSO的MM估计(简记为GMM估计),并证明了该估计具有高
学位