论文部分内容阅读
随着数据库技术和计算机技术的不断发展,其应用范围越来越广泛。在企业资源管理系统中产生海量的与企业管理与日常运营相关的数据。其规模已远超过人类可以直接处理的范畴。如何处理大量的数据并发现数据中蕴含的对企业运营与发展有益的信息成为企业面临的问题之一。在此背景下,数据挖掘营运而生。关联挖掘是数据挖掘的重要分支,其目的是从大批量的数据中挖掘出项之间的关联和满足特定条件的模式。自关联规则挖掘的概念提出至今,该技术不断地发展成熟。关联规则经典算法Apriori算法也引起了众多的研究和改进,并得到广泛应用。商品的利润是企业运营中关注的重要指标,用户对具有高利润的关联模式具有更高的兴趣。而传统的关联规则挖掘算法改进算法多是基于布尔类型的挖掘算法,其主要关注项的发生频率,没有考虑到商品的具体利润以及在每个事务中的销售数量。一方面,基于支持度框架的关联挖掘会挖掘出大量的关联规则,用户很难从中发现对实际行动具有指导意义的关联。另外一个方面,基于支持度框架的关联挖掘算法挖掘出的关联并不一定是用户感兴趣的高利润关联规则。文中经过对基于利润的项集特点进行分析,阐述了Apriori的支持度约束对于基于利润的频繁项集挖掘的不足之处,并且基于利润的频繁项集不具有Apriori中频繁项集的向下封闭特性。从而在基于利润为目标的频繁项集挖掘任务时,经典的关联规则挖掘算法具有一定的局限性。本文针对基于利润约束的频繁项集挖掘任务,提出了基于利润频繁项集挖掘相关的基本概念,并根据项集的利润的特性,提出了对基于利润约束频繁项集的利润支持度约束和利润有效度评估标准。深入研究了基于利润约束的项集挖掘的特点,提出了基于期望事务计数的剪枝规则,证明了期望频繁项集的向下封闭特性。并设计了基于利润的频繁项集挖掘算法。该算法主要分为两步,首先利用期望事务计数的剪枝规则挖掘出频繁项集,然后及对挖掘出频繁项集进行有效度评估并输出挖掘出的有效频繁项集。为了提高算法运行效率,研究了算法挖掘过程的任务拆分时保证算法挖掘结果完备需要解决的问题,设计了基于利润的频繁项集并行挖掘算法。基于SAP并行框架实现了基于利润的频繁项集挖掘并行算法。同时实现了基于利润的频繁项集挖掘非并行算法,以及Apriori算法。并对算法在合成实验数据集和网店销售数据集上进行了对比试验和分析。综合两个数据集的挖掘实验结果和结果分析,证明了基于利润约束的频繁项集挖掘算法能够有效地提高挖掘出项集的利润,同时大幅减少挖掘出项集的数量,有效地提高了算法挖掘结果的质量。通过算法效率实验,验证了并行算法的稳定性以及高效性。