论文部分内容阅读
关联规则是数据挖掘领域中一种基本且重要的模型,其中频繁模式增长算法(FP-growth算法)是关联规则里的经典算法,但随着所需处理的数据集越来越大,FP-growth算法的挖掘效率变得低下,甚至不能在内存中构建一棵全局的FP-tree,因此,并行的FP-growth算法就相继被提出。但传统的FP-growth并行算法并没有考虑各个计算子节点的负载均衡问题,以及节点间通信消耗的问题。关联规则挖掘在企业财务管理中也有很好的应用,随着企业规模的不断壮大,企业财务管理变得尤为重要。其中,企业财务风险分析是企业财务管理中的重要一环,目前已有的企业财务风险分析方法主要是从定性与定量两个角度考虑,但是都有其不足,而且定量财务风险分析所采用的Apriori算法也不能很好地应对海量财务数据所带来的挑战。针对上述问题,论文的主要工作如下:(1)针对频繁1-项集F-list分组投影时会造成计算子节点间负载不均衡以及节点间存在大量通信传输的问题,论文提出了两种优化并行算法:1、基于贪心策略的负载优化算法(GFP),该算法用于数据水平投影过程中,它利用贪心策略对F-list中的项进行分组,每次根据局部负载量最优策略进行划分,最终使得各个计算子节点具有相似的负载量。实验表明,GFP比传统的Hash分组方法能更好地实现负载均衡。2、基于通信量优化的FP-growth并行算法(TFP),GFP算法虽然可以解决负载均衡问题,但当某个频繁项目的最大的条件模式基被投影到其他节点上时,会出现大量的数据传输,导致节点之间的通信量增大。为了解决这一问题,TFP算法在为每个频繁项目分组时,优先考虑将其分到需要最小通信量的节点上去。实验表明,TFP算法满足节点负载均衡的同时,也保证了节点之间具有较小的通信量,从而比传统的FP-growth并行算法效率更高。(2)针对企业财务风险定量分析中存在的不足,论文采用并行FP-growth优化算法TFP替代Apriori算法,使得财务风险分析系统具有处理大规模数据集的能力,从而降低了时间和空间复杂度。最终,论文设计并实现了一个基于并行FP-growth的企业财务风险分析系统,该系统包含交互层、业务层、数据处理层和分布式存储与计算层四个层次,系统借助Hadoop平台能够对海量财务数据进行挖掘,并得到企业财务风险指标之间的关联规则。