论文部分内容阅读
数据挖掘能够从大型数据库或数据仓库中提取隐含的、先前未知的、对决策有潜在价值的知识和规则。关联规则挖掘是数据挖掘中的一个非常重要的研究方向,用于发现数据库中项之间的相互关系。从是否生成频繁项集的角度,可以将关联规则挖掘算法分两类:生成频繁项集的算法和不生成频繁项集的算法,分别以Apriori算法和FP-growth算法为经典代表,但是二者都没有考虑到数据库中项目的重要性不同。本文重点对项目加权关联规则算法进行了研究,主要工作和创新之处有以下几部分:首先,介绍了数据挖掘和关联规则的相关理论知识,重点对Apriori算法的基本思想进行了分析和改进,简述了其在web数据挖掘领域中的应用。其次,由于不考虑数据库中项目的重要程度,会产生无趣规则,因此为关联规则引入了项目加权思想,深入研究了几种加权关联规则挖掘算法和模型。分析出了现存的加权关联规则模型和算法的优缺点,详细阐述了改进算法的思想;第三,提出一种基于矩阵的加权关联规则的改进算法。通过一次扫描,将关系数据库存储转换为0-1矩阵的形式,减少了内存空间的占用;在对频繁(k-1)-项集进行连接运算前进行预剪枝,并且改进了剪枝策略;算法不产生候选项集,而是直接生成频繁项集;由于引入权值导致非频繁项集的超集可能是频繁的,所以单独考虑加权频繁2-项集的生成方式,不会遗漏加权频繁集;在生成关联规则时,引入了兴趣度约束。给出算法的伪代码和流程图,通过实例和实验说明了算法的可行性和优越性。最后,介绍了个性化推荐流程,将改进算法应用于知识点的个性化推荐领域。个性化推荐包含离线部分和在线本部分,该算法的优势主要体现在离线部分,节约了离线产生加权关联规则的时间。通过模拟实验证明了算法的可行性。