论文部分内容阅读
网络日志挖掘旨在通过对网络日志进行有效的数据挖掘,发掘隐藏在日志数据背后的Web用户访问模式。这个目标基于这样的假设:网络日志中确实蕴含了用户访问Web的某些规律性特性,这些特性反映在某些模式中,这些模式可以被挖掘出来并加以利用。绝大多数的网络日志挖掘研究都基于这一假设发掘出了各种有用的Web用户访问模式。但是网络日志中是否确实蕴含了用户访问Web的规律性特性?如果有,这些特性能否用语言描述出来?如何利用这些特性?论文的核心工作就是围绕这些问题,使用统计分析、聚类和依赖关系的建模等挖掘技术,针对Web访问特性、Web信息检索、Web站点辅助设计和系统优化等领域作了较深入的研究。论文的工作与贡献主要有四个方面:(1)网络日志中是否确实蕴含了用户访问Web的规律性特性?如果有,这些特性能否用语言描述出来?论文针对这些问题对实际网络日志进行了实证性的规模统计分析。研究了网络日志规模与用户数、Web页面数以及单位用户访问的Web页面数的关系,并研究了用户访问Web的动机。得出了一些有用的结论。这些结论为网络日志挖掘提供了一定的研究根据和基础。(2)基于(1)所得结论,论文提出了基于Web用户行为的相关页面检索模型WUBIRM(Web Usage Based IR Model)和搜索引擎系统SIS(ISimilar Interests, Similar access on Internet)原型。目前的信息检索技术主要是基于文本分析和链接分析。文中认为页面是否相关的最终判定者应该是用户。为了尽可能地模拟人对页面相关性的判断,论文从真正的网页使用者——网络用户的角度探讨了信息检索技术。文中试图利用网络日志中蕴含的用户在页面相关判定上的潜在意识来挖掘相关页面。这对于改进传统的信息检索技术,从海量信息中快速而准确的检索相关页面具有不可替代的重要意义。(3)基于(1)所得结论,以及用户空间(用户访问频率矩阵)的变换,论文提出了用户兴趣空间的概念,并提出两种用户兴趣空间的构造方法:一是利用因子分析理论;二是利用用户空间中用户聚类和Web文档聚类在权重之间的对偶关系。与用户空间相比较,用户兴趣空间突出了用户的共同兴趣,是一个正交空间。分别在用户空间和两种用户兴趣空间中作Web页面聚类,实验结果表明,用户兴趣空间的Web页面聚类效果优于用户空间的聚类,且从用户空间向用户兴趣空间的转换达到了数据压缩的效果,其中在利用因子分析理论构造的用户兴趣空间中的Web页面聚类效果最好。(4)论文分析了隐藏在Web缓存行为背后的Web用户行为,认为缓存的替换策略应该充分考虑用户访问Web的特性。论文提出了Web缓存替换策略SULRU(Size&User LRU)。SULRU充分利用了用户访问Web的特性,并具有一定的自适应能力,提高了缓存的智能特性。模拟实验结果表明SULRU取得了较好的页面命中率和页面字节命中率。SULRU实现起来也比较容易,是一个较好的缓存替换策略。