论文部分内容阅读
随着Internet和WWW的迅速发展,用户访问信息广泛、海量地遍及于其上。这些信息从用户维、时间维、空间维、访问对象维等方面详尽地反映出用户的访问细节。对这些细节信息再进一步挖掘之后,就可以发现隐藏其中的一些更深层次的知识和规律-用户(用户群)的使用模式和访问兴趣。这些知识可以广泛应用于Web个性化服务、系统改进以及商业智能等领域。针对这个具有广泛而深远意义的研究课题,本文完成的主要工作包括以下几个方面:1.首先从用户使用模式挖掘过程中的四个主要阶段:数据采集、数据预处理、模式发现以及模式分析,宏观综述了国内外学者一些经典和最新的研究进展,并对这些研究成果进行详细地整理、归纳与分析,力求展现出这个研究领域的全貌。在前期调研成果的基础上,确立了本文研究工作的两个关键技术层面:Web使用数据预处理技术和Web使用模式与兴趣挖掘方法。2.在Web使用数据预处理技术层面,Web用户会话的识别与构建是其中一个非常关键的步骤。针对于此,提出了一个基于用户访问URL语义分析的会话识别方法。这个方法借助Web目录服务对URL记录进行概念化,为Web日志中的每一条URL访问记录赋予一定的语义信息,在此基础上再根据一些测度指标定义对URL之间的语义相似度进行评价,并建立预设时间间隔内的URL间语义距离矩阵。然后在静态和流动的Web日志情况下,分别给出了两类日志数据的语义奇异值鉴别方法:SOAS和SOAD。通过对候选语义奇异值的计算来判定一个切分会话标志的合理性,继而达到用户会话识别、构建的目的。实验结果表明,与一些已有的经典会话识别方法相比较,这个方法在各项评测指标的评估中均占优。同时这个成果将用于本文后续Web用户使用模式与兴趣挖掘方法的研究工作中。3.在Web使用模式与兴趣挖掘方法层面上,本文首先以Web用户访问信息的历史变化特性为视角,给出了一个Web用户聚类方法。在这个方法体系中,首先需要依次构造出每个用户的历史访问序列树:E-WAS树和H-WAS树。然后从H-WAS树中抽取出持久偏爱的Web访问模式PP-WAP作为Web用户的聚类特征。接下来,根据本章定义的一些PP-WAP的相似度判定方法对用户的相似性进行度量,并且选用著名的划分聚类方法-K-Medoid算法对用户相似度矩阵进行聚类计算。本章的最后部分进行了两方面的实验:PP-WAP的抽取实验和Web用户聚类实验。通过实验验证,本文将用户历史访问信息的变动特性作为聚类特征进行用户聚类的方法是新颖的,并且算法的可扩展性与计算效率也较好。4.在Web使用模式与兴趣挖掘方法层面上,本文还以用户的访问兴趣为出发点,基于经典隐马尔可夫模型建立了两个Web用户兴趣浏览路径模型:INPM和SINPMPe,并给出了从这两个模型中发现用户兴趣关联模式的方法。这些发现的用户兴趣关联模式不仅可以反映出用户访问路径上的时间特性,而且更多地是反映了带有用户访问兴趣特性的最佳关联路径信息。最后,安排了三部分的实验:模拟数据实验、带有实际背景的实验以及与传统方法的对比实验。实验结果表明,提出这个兴趣关联模式发现方法的确是一个高效、扩展性良好的用户兴趣路径序列挖掘方法。利用发现的兴趣关联模式可以更好地理解访问用户的偏好,帮助Web站点设计者改进站点结构。此外这个方法还可以以周期性、离线方式进行挖掘工作。