论文部分内容阅读
在Web的应用和规模快速增长下,把数据挖掘技术应用于Web是-个极具挑战性的研究方向。从Web服务器的日志挖掘中发现有用的,重要的知识(包括模式、规则、可视化结构等),成为数据挖掘与知识发现的又一重要研究和应用领域。本文作者对Web日志挖掘作了系统性的研究,通过对Web日志的挖掘,找出用户浏览页面的关联规则、聚类信息、访问路径等,并把它们应用到Web站点的智能化设计中。所作的工作主要有以下几个方面:1. 本文介绍了Web数据挖掘的基本概念,分类,并给出Web数据挖掘的基本原理,基本方法,并指出Web数据挖掘的用途。2. 为了更加合理地组织Web服务器的结构,需要通过Web日志挖掘分析用户的浏览模式,而Web日志挖掘中的数据预处理工作关系到挖掘的质量。文章就此进行了深入的研究,提出一个包括数据净化、用户识别、会话识别和路径补充等过程的数据预处理模型,并通过一个实例具体介绍各过程的主要任务。3. 从Web日志挖掘过程预处理阶段的结果用户会话文件开始,提出了一种基于扩展有向树模型进行用户浏览模式识别的Web日本挖掘方法,并在实验室对该方法进行了简单实现和实际日志数据的测试。4. 推荐是Web个性化服务的核心。提出一种自动分层推荐算法,利用页面分层自动选择最佳的匹配粒度,进行基于频繁导航路径的推荐。实验结果表明,该算法大大减少了在线匹配的开销,可以成功地应用到Web日志挖掘中。5. 提出了一个基于Web日志挖掘技术的应用,即用户自适应的Web站点,介绍了这一系统的实现方法和主要特色。