论文部分内容阅读
Web挖掘是将数据挖掘和WWW这两个领域中的多种技术和方法结合起来的热门研究课题。一般来说,它的研究领域包括Web内容挖掘、Web结构挖掘和Web使用挖掘。其中,Web使用挖掘的研究目的在于发现用户浏览网站的行为规律,开展个性化服务,改善站点的结构和页面间超级链接结构,提高站点服务质量以及在电子商务中的客户关系管理方面的决策支持。本文在介绍Web使用挖掘的相关理论的基础上,详细论述了Web使用挖掘的整个过程和相关技术。本文所做的主要工作和新见解如下: ●介绍论述了数据挖掘和知识发现的概念应用,并且详细介绍了Web挖掘的概念、特点和应用; ●阐述Web使用挖掘的定义、过程、应用。以及在Web挖掘各个阶段的研究内容和相关技术: ●在Web使用挖掘的数据收集阶段,设计并实现了一种全新的数据收集系统。数据的收集更加准确、高效。 ●在Web使用挖掘的数据预处理阶段,结合数据的收集,使用服务器会话标识,提出了一种新的会话构造方法。该方法根据用户与服务器之间的交互行为,确定用户当次会话是否结束。同时,设计了基于时间、客户IP、引用页综合判断的会话识别方式,解决了多站点数据合并的问题。为数据挖掘提供了相对准确的数据源。为了提高访问模式挖掘的效率,对数据进行了格式化,这在一定程度上方便了用户频繁访问模式的挖掘; ●在模式发现步骤中,本文使用Hash树改进的Apriori算法,实现了频繁访问模式的关联规则挖掘。该算法可以用于发现大多数用户每次访问网站的规律,发现用户的频繁访问模式。最后,对相关领域其它较优的算法进行了介绍; ●设计开发了Web使用挖掘系统(Web Usage Mining System)。此系统具备了基本Web使用挖掘系统的全部功能模块。并且已经应用到了本人的工作中,通过对图书馆网站的访问数据的挖掘证明对改进网站结构,提高服务质量有很大的帮助。