论文部分内容阅读
随着Internet的飞速发展,Web站点上的页面数量和内容与日俱增,然而越来越多的Web用户迷失在Web信息的海洋中。人们迫切需要从Web用户浏览的记录中发现某些有用的信息。通过对Web用户的访问信息进行有效的数据挖掘,可以获得有关Web用户访问行为的知识。这些知识可以服务于Web站点的服务提供者和访问者,进而改进Web站点结构设计、方便用户使用、提高Web服务器的性能和增加个性化服务等,这正是Web个性化技术研究的内容和目的所在。目前,Web个性化研究已经成为国际上一个新兴的重要研究领域,其研究工作具有非常重要的现实意义。而建立有效的Web用户浏览行为模型,是Web个性化研究的关键技术。Markov模型是一种经典的Web浏览预测模型。本文首先对基于Markov模型的Web个性化技术进行了系统、全面地归纳与分析,并对当前国内外的相关研究进行了分析与总结。然后在此基础上,对Web个性化技术进行了研究,主要研究成果如下:(1)基于Markov模型的混合浏览预测模型的构思状态克隆提高HPG模型浏览预测的准确率,但只考虑Web日志中用户浏览次数的统计信息。NG模型中,用Pagerank算法计算页面间的相对重要性,但其预测准确率较低。本文提出一种思路:把这两种模型的思想结合起来,构建混合模型,即先用PageRank算法来计算网页间的相对重要性,再利用状态克隆思想来提高模型的准确率。(2)提出一种近似计算多阶Markov链浏览预测模型—流Markov模型本文提出一种新的近似计算多阶Markov链的浏览预测模型FMM,即利用一阶的Markov链模型近似计算出多阶的Markov链模型,并针对Web个性化推荐模型提出了两个新的推荐原则。从实验结果表明,FMM大大降低了预测系统的存储复杂性,并且在预测命中率与覆盖率优于传统的模型。(3)对流Markov模型的改进流Markov模型仅仅利用Web日志的统计信息,对站点的网页的结构没有进一步分析,难免过于简单化。因此本文对其进行了改进,在其基础上提出了一种改进模型,新的模型考虑了站点中网页可能存在的重要性以及Web用户浏览行为的独特性问题,能够获得更为客观的预测解释,在不增加空间复杂性的条件下,预测命中率有所提高。最后,对所做工作进行归纳与总结,并探讨了将来进一步的研究方向。