并行FP-growth关联规则算法研究

来源 :电子科技大学 | 被引量 : 19次 | 上传用户:hofox
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关联规则是数据挖掘领域中一种基本且重要的模型,其中频繁模式增长算法(FP-growth算法)是关联规则里的经典算法,但随着所需处理的数据集越来越大,FP-growth算法的挖掘效率变得低下,甚至不能在内存中构建一棵全局的FP-tree,因此,并行的FP-growth算法就相继被提出。但传统的FP-growth并行算法并没有考虑各个计算子节点的负载均衡问题,以及节点间通信消耗的问题。关联规则挖掘在企业财务管理中也有很好的应用,随着企业规模的不断壮大,企业财务管理变得尤为重要。其中,企业财务风险分析是企业财务管理中的重要一环,目前已有的企业财务风险分析方法主要是从定性与定量两个角度考虑,但是都有其不足,而且定量财务风险分析所采用的Apriori算法也不能很好地应对海量财务数据所带来的挑战。针对上述问题,论文的主要工作如下:(1)针对频繁1-项集F-list分组投影时会造成计算子节点间负载不均衡以及节点间存在大量通信传输的问题,论文提出了两种优化并行算法:1、基于贪心策略的负载优化算法(GFP),该算法用于数据水平投影过程中,它利用贪心策略对F-list中的项进行分组,每次根据局部负载量最优策略进行划分,最终使得各个计算子节点具有相似的负载量。实验表明,GFP比传统的Hash分组方法能更好地实现负载均衡。2、基于通信量优化的FP-growth并行算法(TFP),GFP算法虽然可以解决负载均衡问题,但当某个频繁项目的最大的条件模式基被投影到其他节点上时,会出现大量的数据传输,导致节点之间的通信量增大。为了解决这一问题,TFP算法在为每个频繁项目分组时,优先考虑将其分到需要最小通信量的节点上去。实验表明,TFP算法满足节点负载均衡的同时,也保证了节点之间具有较小的通信量,从而比传统的FP-growth并行算法效率更高。(2)针对企业财务风险定量分析中存在的不足,论文采用并行FP-growth优化算法TFP替代Apriori算法,使得财务风险分析系统具有处理大规模数据集的能力,从而降低了时间和空间复杂度。最终,论文设计并实现了一个基于并行FP-growth的企业财务风险分析系统,该系统包含交互层、业务层、数据处理层和分布式存储与计算层四个层次,系统借助Hadoop平台能够对海量财务数据进行挖掘,并得到企业财务风险指标之间的关联规则。
其他文献
<正>"预先谈好的价格与实际支付数额大不相同!"有过一次搬家经历的张先生谈到搬家公司一脸无奈,"家具笨重要加钱,多上一层楼要加钱,楼梯窄了又要加钱,搬家公司在我的印象中信
<正>自中央提出建立"租购并举"住房制度以来,租赁市场迎来发展机遇,各地陆续出台有关住房租赁的系列政策。"加快培育和发展住房租赁市场"的实施细则在各省市接连落地铺开,助
目的建立马齿苋药材中总多酚的测定方法,考察不同产地马齿苋药材中总多酚,为马齿苋药材质量评价提供参考。方法以没食子酸为对照品,采用福林酚(FC)比色法测定马齿苋中总多酚
<正>【教学内容】人教版《义务教育教科书(二年级下册)》第75~76页的内容。【教学目标】1.使学生在经历数数的过程中体验"千"产生的必要性,感知1000是一个大数,理解相邻计数
飞机租赁业作为整个租赁行业最有代表性的一个分支,在我国的起步虽然较晚,但近年来的发展却很快。本文首先简要分析了飞机租赁对整个民航产业所起的作用,然后结合作者在租赁
围绕当下流行的智能家居技术,概述了智能家居技术及发展现状,分析了目前影响该技术大力发展的原因,并结合我国智能家居发展实际情况展开思索,提出了促进该技术发展的几点建议
张爱玲一生创作了大量优秀作品,其中篇小说《金锁记》的成就获得高度评价。后受到多方面原因的影响,将《金锁记》扩写成了长篇小说《怨女》。本文旨在通过对这两篇小说的比较
随着改革开放,经济技术的快速发展,石油工业作为我国的重要能源之一,其发展的速度和规模都在不断扩大,随之增大的还有其市场需求量。石油工业的快速发展不仅可以对市场的经济
北二东西块二类油层是大庆油田萨北开发区弱碱三元复合驱工业化推广区块,目前处于三元主段塞注入阶段,区块综合含水率呈持续下降趋势。应用油藏工程理论,结合区块开发地质特
数据挖掘是致力于数据分析和理解、揭示数据内部蕴藏知识的技术,它成为未来信息技术应用的重要目标之一。经过十几年的努力,数据挖掘领域产生了许多新概念和方法。特别是最近几