论文部分内容阅读
随着Web技术的逐渐成熟以及浏览器的广泛使用,用户通过互联网所能获取的信息量呈现指数级的速度增长。Web的海量信息一方面为用户提供了获取信息的源泉,另一方面也为用户高效的获取有价值的知识带来了不小的挑战。如何通过Web文档的挖掘来获取用户潜在的兴趣或其他有用的信息,以此来对用户提供个性化、智能化的信息服务已成为人们的迫切需求。Web日志挖掘正是在这种背景环境下产生的。文本主要对基于Web服务器日志挖掘的数据预处理相关技术进行研究。首先,简要概述了论文的选题背景与意义,并介绍了本文的主要研究内容和国内外的相关研究现状。然后,本文对数据挖掘的基本过程、常用算法及研究意义进行了简要介绍,并对Web数据挖掘的难点和分类进行了总结,重点阐述了其中的Web日志挖掘,并对其中的数据预处理相关技术进行概括。接着,本文介绍了当前常用的一种基于Timeout页面时间阀值的会话识别方法,在此基础上提出一种基于页面的标准浏览时间、装载时间、以及页面的链接结构等影响因素得到用户对每个页面的浏览时间阀值的会话识别方法,并依据用户对页面的浏览兴趣进行会话清理,为后期的数据挖掘提供较为准确的会话数据。通过实验仿真说明改进会话识别方法的有效性。最后,在会话识别的基础上,对会话矩阵进行聚类分析。介绍了传统的基于k均值算法的聚类分析方法,本文在此方法的基础上,综合考虑初始重心之间的距离和初始重心所处区域的密度等因素。提出了一种基于改进k均值算法的会话聚类分析方法,通过实验仿真可知,改进k均值算法不仅能提高会话聚类的时间效率,而且还使会话聚类结果更加紧凑和独立,提高了整体聚类质量。本文在已有研究的基础上,主要做了以下几个方面的创新研究工作。首先探讨了Web服务器日志挖掘中的一个关键问题,即Web日志的数据预处理问题。针对当前常用的一种基于Timeout页面时间阀值的会话识别方法的不足,根据用户对页面的浏览兴趣提出了一种改进的会话识别方案。其次本文通过改进k均值算法进行会话聚类,有效的提高了整体聚类质量。