论文部分内容阅读
数据挖掘是从海量数据中发现潜在的、有趣的知识的有效方法,是近年来数据库和人工智能等研究领域的热点课题。关联规则挖掘是数据挖掘中的一个重要研究方向,用于从大量数据中发现项集之间的相关联系,在电子商务、商品销售及银行和电信等行业中得到了广泛应用。关联规则分为单层关联规则和多层关联规则,主要根据规则所涉及的抽象层的数量来划分。与单层关联规则相比,多层关联规则可以使用多种挖掘策略,挖掘出各层以及不同层间的关联规则,因此能够提供更加丰富、更具普遍意义的知识;另外,从不同的抽象层挖掘关联规则也是非常必要的,特别是电子商务的应用中,在低层或原始层的数据项之间很难找出强关联规则。关联规则挖掘算法中最经典的算法是Apriori,后续的一些算法是基于对Apriori算法的改进或扩展而得到的。由于Apriori会产生候选集,并且需要反复扫描数据库,因此效率较低。针对Apriori算法存在的缺陷,学者们又提出一种高效的挖掘算法-FP-growth算法,该算法不产生候选项集,并且只需要扫描数据库两次,这大大提高了频繁项集挖掘的效率,在实际应用中最为广泛,但也存在一些不足之处。本文通过对FP-growth算法的研究分析,对其进行了改进,改进后的FP-growth算法采用一个基于Hash表的辅助存储结构,减少了项目查找时间,改善了挖掘效率。在研究单层关联挖掘的基础上,本文对多层关联挖掘技术也进行了一定的研究,深入分析了概念层次树本身的特点,对其结构进行了改进,使其既保持了概念层次树本身的特点,又能帮助获取各层的频繁1-项集。最后将这两方面的改进综合运用到多层关联挖掘技术中,并将改进后的多层关联挖掘算法应用到实际的电子商务系统中,对已销售的商品进行挖掘分析,找出商品间隐藏的一些有价值的规律,用于指导企业的经营和决策。