论文部分内容阅读
Web站点日志的数据挖掘是对用户与Web服务器的交互产生的日志数据使用数据挖掘技术发现隐含的规律性知识,得到用户的访问模式和用户的兴趣,从而为用户的个性化服务提供依据,同时将一些可疑的访问信息及时反馈给网站管理员以加强网站的安全性。本系统以Web日志和Web拓扑结构作为数据源,从数据收集、数据预处理和数据挖掘分析三个阶段阐述系统的整体结构和实现,系统采用图论来表现关联规则挖掘的优化算法并给出部分JAVA代码实现。引入关联规则挖掘,对关联规则基本概念作了介绍,提出了关联规则的分类方法。对挖掘算法的介绍,对传统相似度聚类分析进行了研究并做出了改进。基于安全的考虑提出了正常浏览模式、异常浏览模式的概念并利用改进的相似度进行挖掘。对传统的Apriori算法进行改进,提出了用图论的方法即大图法来挖掘用户偏好路径,发现用户的访问兴趣。提出了基于Web日志挖掘技术的站点日志挖掘体系结构,为进一步实现Web站点智能化服务打下基础。 本论文的结构如下: 第1章:对目前的数据挖掘技术进行了分析,着重指出了Web挖掘的国内外研究现状和热点,阐述了最新的数据挖掘分类,并提出了研究站点日志挖掘的主要内容和意义。第2章:详细讲述Web数据挖掘,阐述当前Web数据挖掘的最新分类和由于数据的结构性不同所面临的困难,最后重点讲述日志和日志挖掘实现流程。第3章:讲述了Web日志挖掘中的信息收集。不同信息源分析和信息收集的过程。第4章:从数据预处理的目的、过程、程序实现以及相关数据库建立等方面分析了日志挖掘的数据预处理过程,重点阐述了数据净化、用户识别、路径补充和事务识别。第5章:讨论如何进行日志挖掘和相应的算法分析。包括采用会话相似度分析将日志记录分为正常访问模式和异常访问记录,引入大图法采用关联规则分析用户的偏好路径。第6章:给出了日志挖掘系统的实验体系和部分实验结果。第7章:总结了本课题研究成果主要有四点,指出了需要进一步改进的方面。