论文部分内容阅读
随着Internet的发展,WWW的应用越来越广泛,所有客户行为的电子化,使得大量收集每个用户的行为数据、深入研究用户行为成为可能。如何利用这个机会,从这些繁琐数据中得到大家都看得懂的、有价值的信息和知识是我们面临的问题。所以,出现了数据挖掘在Web站点分析中的应用,即Web挖掘。 Web日志挖掘是Web挖掘领域中的一个重要应用研究方向。为用户提供一个不仅内容丰富而且方便使用的优秀网站,以吸引大量的用户,这是每个网站所追求的目标。Web站点能否实现个性化,为用户提供个性化的服务,成为衡量站点能否成功的重要因素。通过挖掘Web日志,发现用户的访问模式,对优化站点结构和为用户提供个性化服务具有重要的意义。 本文主要研究了基于Web日志的用户访问模式的挖掘,对个性化Web服务系统也进行了一定的研究与优化设计,主要工作如下: 1) 研究了数据挖掘的基本原理,以及数据挖掘在Web站点分析中的应用。通过学习经典的序列模式挖掘算法,掌握了它们各自的原理和特性,分析了各种算法的应用环境,为研究基于Web日志的用户访问模式挖掘奠定了一定的理论基础。 2) 研究分析了基于Web日志的序列访问模式的挖掘模型,掌握了一种完整的Web日志挖掘方法流程。一个完整的挖掘过程包括数据预处理,找寻最大前向路径和发现频繁访问模式,其中数据预处理是整个挖掘工作能否成功的关键因素之一。在研究的基础上,以一个简单的用户访问日志为例,实现了数据预处理,得到了最大前向路径集合,分析给出了挖掘频繁访问路径的改进算法。 3) 进一步进行了扩展性的研究,阐述了用户访问模式挖掘在Web服务中的应用,提出了优化的个性化Web服务系统模型。该系统具有以下特点:①它利用数据挖掘技术,采用隐式的方法发现用户的兴趣所在和访问模式;②页面推荐方式具有针对性,可以根据不同的用户访问信息为用户提供具有个性化的服务;③在根据用户访问模式进行页面推荐的过程中,查找最“临近用户”时,可以利用前一过程的用户聚类的结果,从而有效的提高了效率。