论文部分内容阅读
随着Web资源的不断丰富和增加,Web站点结构变得越来越复杂,传统的Web站点缺乏智能性和主动性,因此,面对复杂而庞大的万维网,人们不容易找到自己感兴趣的信息,同时Web站点和Web服务器的设计难度也相应提高,这就需要对Web站点进行优化以提供智能的Web服务,如个性化服务、自适应站点等。而优化站点的一个重要依据就是用户的访问行为,由于Web日志详细地记录了用户的访问信息,具有丰富的内涵。因此,Web日志挖掘能够有效地发现用户的访问模式,为站点改进提供依据,从而解决以上问题。本文讨论了Web日志挖掘的过程为数据预处理、模式发现和模式分析;详细地分析了Web日志挖掘数据预处理阶段的各项任务以及Web日志挖掘中的各种模式发现方法和技术;分析了采用Godin算法在构造概念格时需要遍历原始概念格中的所有节点才能确定新概念的产生子,提出了使用树结构的搜索方法来缩小新概念的产生子及其父节点的搜索范围以完成概念格的更新,提高和改善了概念格的构造效率。本文将概念格理论应用于Web日志挖掘的模式发现,解决了Web日志的增量挖掘问题;研究了基于概念格的关联规则的挖掘,提出了一种从最大频繁项集产生所有强关联规则的优化方法,减少了模式发现中频繁项集的发现时间和不必要的规则的产生,从而提高了模式发现的效率。概念格的渐进式构造算法的优点在于可以实现概念格的维护和更新,从而使得Web日志挖掘模式发现方法能够有效地实现智能Web服务所需要的模式库的更新。