论文部分内容阅读
分类技术以及基于关联规则的知识发现技术是数据挖掘领域中两个十分有潜力的研究分支,目前二者已经取得了可观的研究成果。本文提出的关联分类作为一个较新的数据挖掘专题,将分类规则与关联规则有机的结合到一起,以此来协同构建“关联分类系统”。本文提出的关联分类算法首先应用分类器从训练集中提取分类规则,之后再按照关联规则生成算法形成推荐结果。本文首先简要地介绍了当今电子商务销售推荐系统的理论基石,即数据挖掘、信息检索以及过滤技术。在此基础上,文章重点分析了经典的Apriori算法,总结了该算法存在的主要缺点并且提出了可行性的解决方案。一是引入参照数据库以减少计算候选项集的支持度时数据库元组的个数,提高Apriori算法生成频繁项集的效率;二是引入了压缩规则集、改进的剪枝策略以及优化的Apriori关联规则生成方法,目的是缩小生成强关联规则时需要判断的频繁项集的范围;三是将改进的ID3算法与改进的Apriori算法相结合,使得改进的ID3算法作为关联规则产生的先决条件,以此来指导关联规则的挖掘及预测并根据顾客已有的购买情况推测他们将来的消费行为。本文提出的ID3改进算法基于以下三点,即简化ID3算法中信息增益的计算公式、引入了罚函数解决原ID3算法多值偏向的问题以及连续型非名词属性离散化。最后,本文将改进后的Apriori算法应用于“ALL电子商务销售推荐网站”中。改进后的Apriori算法首先将用户划分为不同的消费群体,针对不同类型的消费者预测其购买某种产品的可能性。其二,本算法根据“ALL电子商务销售推荐网站”中商品的销售记录来挖掘潜在的强关联规则,目的是为了了解不同消费品在被购买时存在的联系,然后,向具有购买某种产品倾向的消费群体推荐相关的其他产品。实验结果表明,改进后的Apriori算法是有效的,它提高了生成的强关联规则的质量,有效地降低了算法的计算运行时间,同时,改进后的Apriori算法是基于改进的ID3算法的,因此,它能够更有针对性地向特定的顾客群体推荐相关产品。