论文部分内容阅读
Web挖掘是将数据挖掘和WWW这两个领域中的多种技术和方法结合起来的热门研究课题。一般而言,它的研究领域包括Web内容挖掘、Web结构挖掘和Web使用挖掘。其中,Web使用挖掘的研究目的在于发现用户浏览网站的行为规律,改善站点的结构和页面间超链接结构,提高站点服务质量以及在电子商务中的客户关系管理方面的决策支持。本文在概述Web使用挖掘的基础上,详细阐述了Web使用挖掘的整个过程和发现用户频繁访问模式的挖掘算法。本文所做的主要工作和新见解如下: ● 详细论述了Web挖掘的定义、分类、特点和Web挖掘所面临的挑战。 ● 阐述了Web使用挖掘的定义、数据来源、应用、研究方向以及相关技术;其中详细论述了基于事务的Web使用挖掘过程,在数据预处理阶段的事务识别步骤,介绍了一种经典的事务识别算法——最大前向引用(MF)算法。 ● 第四章中提出了三个发现用户频繁访问模式的改进算法。首先分析了Web使用挖掘中的类Apriori算法;然后在此基础上,提出了RD_Apriori改进算法;接着对数据挖掘中挖掘频繁项集的Close算法进行改进,提出了Web使用挖掘中的Close算法;最后结合RD_Apriori算法和Close算法,又提出一个RD_Close算法。通过理论分析和实验验证,它们都能根据不同的支持度阈值有效地发现用户的频繁访问模式。 ● 设计开发了Web使用挖掘原型系统(Web Usage Mining Prototype System)。此系统主要包含四个功能模块:数据清洗模块、会话构造模块、MF事务识别模块和访问模式挖掘模块,这些模块完成了原始日志数据的预处理工作,并且实现了第四章中阐述的四个挖掘算法:类Apriori算法,RD_Apriori算法,Close算法和RD_Apriori算法,Close算法和RD_Close算法。最后用真实数据对这些算法的性能进行了验证和分析。