论文部分内容阅读
随着Web技术在各行各业的广泛应用,Web服务器上存在大量的日志文件,通过Web日志挖掘,可以发现用户访问Web页面的模型和访问习惯。然而,经典Apriori算法在处理大规模数据时存在诸多问题,急需一种挖掘算法既能实现关联规则挖掘,又能高效地执行。 本文对经典Apriori算法进行了较为详细的分析和评价,针对该算法的不足并结合粗糙集理论中知识约简的方法,对经典Apriori算法进行了优化改进,实现了新的关联规则挖掘算法——RSApriori算法,并通过多组实验证明新算法较好地提升了运行速度和挖掘效率。此外,将该算法应用到Web日志挖掘处理中,建立基于粗糙集的Web日志挖掘模型,除去冗余属性,实现属性约简,得到有效的决策规则,也取得了良好的效果。 本文主要研究内容与创新点如下: 1.对经典Apriori算法的基本思想、优缺点以及其实现步骤进行了较为详细的描述,深入分析了影响其执行效率的关键因素,找到算法改进的切入点。 2.鉴于粗糙集理论在处理模糊不确定知识方面的特性,对粗糙集理论中知识约简方法进行重点介绍,并以该方法为基础给出了RSApriori算法。粗糙集理论的核心内容是知识约简,其基本思想就是在不改变原知识库分类能力的条件下,删除不相关或者不重要的冗余知识。RSApriori算法首先通过项集预处理操作对事务集中的项进行筛选,排除无意义的项,这就避免了生成大量的候选项集;然后利用粗糙集理论中知识约简方法对项集进行约简,这就避免了多次扫描数据库,从理论上提升了算法的执行效率。 3.实现了RSApriori算法,通过多组实验,分别设定不同的最小支持度和最小置信度,将该算法与经典Apriori算法运行结果进行了详细的对比,突出该算法在运行时间和挖掘效率方面的优势。 4.将基于粗糙集理论中知识约简的算法应用到Web日志挖掘中,建立了Web日志挖掘模型,实现属性约简和值约简,并获得决策规则,通过实例分析验证取得了较好的效果。