论文部分内容阅读
Web日志挖掘是对用户与Web服务器在交互时产生的数据使用数据挖掘技术发现隐含的规律性知识,得到用户访问站点的频繁程度和行为模式。本文主要从以下几个方面对Web日志挖掘进行系统的分析和研究:本文首先阐述研究背景及Web日志挖掘的国内外研究现状,并对Web数据挖掘进行了概述;其次对Web日志挖掘中的数据预处理技术进行了分析与研究,详细分析了路径补充功能的实现;紧接着研究了Apriori算法在每次生成频繁集后,仍多次扫描有些可以判断出不必再去扫描的项目或事务,影响了Apriori算法的效率,在这样的问题下,本文提出了Apriori算法的改进及web日志挖掘的具体实现过程,并给出具体实例。最后论文总结本课题的研究成果和工作中尚存的不足,并指出Web日志挖掘的研究方向、应用前景和它所面临的挑战。本文的创新点在于:一是由于本地缓存和代理服务器缓存的存在,使得服务器的日志会遗漏一些重要的页面请求。缓存保存了用户最近刚刚访问过的页面,当用户点击“后退”图标时,用户的这一请求不被发送给服务器,显示给用户的是本机缓存的页面,这样Web服务器就无法知道用户又进行了重复访问这种操作,即无法探知到用户又访问了重复的页面。因此,这次访问没有被记录在Web日志中,从而不能准确地体现用户的访问路径。本文针对其不足,根据Web站点结构和客户端缓存实现将疏漏的页面补充在路径里。二是重点分析关联规则算法中的现有Apriori算法,从Apriori算法描述中不难发现,Apriori算法在每次生成频繁集后,又要回去扫描数据库来判断这些候选频繁项目集是否是频繁项目集,有些可以判断出不必再去扫描的项目或事务仍被多次扫描。当候选集规模较大时,事务数据库中的数据在不断地增加,每次增加数据后,Apriori算法计算频繁项目集和生成关联规则这两项工作必须针对增加新的数据后的数据库重新做起,这意味着以前生成的频繁项目集和关联规则都没用了,这显然不利于快速高效地发现关联规则。再有当数据库的规模超出主存的容量时,不足也就明显体现。针对其不足,本文提出一种关联规则挖掘的改进模式,通过引入分辨矩阵实现只扫描一次数据库,从而使算法效率有所提高。三是借助于VC++平台设计一个Web日志分析系统。针对系统的四个子模块:日志记录抽取、会话识别/用户识别、用户分析、页面分析,本文分别进行了介绍分析,进一步明确通过Web日志挖掘的分析,能了解用户的访问信息,更好的为用户提供众多的服务。