论文部分内容阅读
飞速发展的电子商务产业催生了数据总量的爆炸性增长,从大量数据中发现和提取人们感兴趣的知识,让数据带来价值越来越受到人们的关注。而数据挖掘在电子商务中的成功运用为人们分析和研究大量的相关数据提供了一条行之有效的方法和途径。 关联规则挖掘作为数据挖掘领域的一项重要研究方法,可以用来发现交易数据库中不同商品之间的联系,也可以用于发现在用户浏览网页时,不同的访问记录之间的关联。关联规则对于用户浏览行为和购买行为的分析可以给电商网站的销售策略和网站布局提供很多有价值的建议,有助于网站经营者作出更好的商业决策。 本文首先介绍了电子商务环境下数据挖掘的定义、过程和功能,并对几种重要的挖掘方法进行了分析。其次,本文重点介绍了最常用的两种关联规则挖掘算法,Apriori算法和FP-Growth算法的基本思想和挖掘过程,并用实例说明了算法的运行过程并分析这两种算法的局限之处。Apriori算法需要重复多次的搜寻与遍历事务数据库,这导致了大量的时间消耗与浪费,从而增加了算法运行的时间。而FP-Growth算法需要构建基于内存的FP-tree,当面对事物数据库比较大时可能导致算法的挖掘失败。最后,本文针对Apriori算法和FP-Growth算法的局限,综合两位专家学者对于FP-Growth算法的改进研究,提出了FP-Growth算法的改进算法IM-FP算法。IM-FP算法对事务数据库进行分解并将分解后的事务数据库根据频繁1-项集的支持度计数进行排序,并根据首元素的不同分别存储在不同的链表中,基于链表构建IMFP-tree,并对其进行频繁项集发现和关联规则挖掘。IM-FP算法采用分解事务数据库的方法可以处理大型数据库的挖掘工作,同时对首项相同的链表构建IMFP-tree可以最大限度的共享前段路径,降低了算法构建频繁模式树所占用的计算机内存资源,降低了算法的运算时间。通过进行几种算法的对比实验,实验结果证明该算法的挖掘结果和FP-Growth算法的挖掘结果完全相同,同时算法在处理大型数据库的挖掘时,算法的时间复杂度要大大低于FP-Growth算法。 在本文的最后部分,采用了IM-FP算法对电子商务网站的用户购买数据进行了关联规则挖掘,从商品品类和单个商品两个维度得出挖掘结果,基于关联规则的挖掘结果和对于相关文献资料的分析研究,本文对电商网站经营策略的改进和数据挖掘算法在电子商务中的应用提出了一些可行的建议策略。