论文部分内容阅读
随着Internet应用的迅速发展,网上信息迅速增长,信息种类也越来越多,人们面对太多的信息无法选择和消化,此种现象称为信息过载。Internet上信息资源分布的广泛性又给用户寻找感兴趣的信息增加了困难,也就是所谓的信息迷失。当前主要采用搜索引擎来检索Web上的信息,大多数搜索引擎缺乏主动性,未考虑个体用户的兴趣偏好,因而未能有效地解决信息过载和信息迷失的问题。为了有效地解决信息过载和信息迷失给人们带来的种种困扰。最近研究者们提出了一种被认为能有效解决这些问题的技术-Web个性化服务技术。Web日志挖掘是将数据挖掘技术作用于Web服务器日志文件等获得有关用户访问行为的知识。这些知识可以服务于Web站点的服务提供方和访问者,进而改进Web站点设计以方便用户使用,提高Web服务器的性能,增加个性化服务等。基于Web日志挖掘的个性化服务是目前Web个性化服务中应用和研究的关键技术,主要是利用Web日志挖掘的相关技术为不同的用户采取不同的服务策略,提供不同的服务内容,开展个性化服务。本论文在较为系统地分析Web日志挖掘中数据处理方法的基础上,针对用户访问兴趣度表示的不足,提出一种基于用户浏览时间和浏览页面关键字的度量方法,能较好的表示用户访问兴趣。提出基于兴趣聚类的个性化网页推荐方法。对比K-path聚类,兴趣聚类提出了更有效的路径相似度函数,采用了竞争凝聚思想,能够自动确定最佳的聚类数目。并对推荐算法中的相似度函数进行改进;利用关联规则发现得到页面推荐集,设计一个基于该算法的个性化推荐系统模型。通过实验表明本文的预处理算法可以很好的识别用户的访问情况,兴趣聚类算法在时间复杂度上优于K-path算法,改进的推荐算法可以提高推荐正确率,推荐准确率在87%左右,具有较高的准确性。本文的主要研究内容如下:①Web日志挖掘中数据预处理方法的研究。详细研究和探讨了Web日志挖掘中数据预处理的整个过程及方法。包括:数据清洗、用户识别、会话识别、路径填充、事务识别等。②对用户访问兴趣的表示和度量进行了研究。分析了已有的度量用户访问兴趣方式的不足之处。提出一种基于用户浏览时间和浏览页面关键字的度量方法。③提出了一种基于用户访问兴趣的聚类算法(CCCA),并针对以往推荐方法的不足进行相应的改进。首先针对K-paths聚类算法的不足,提出更有效的路径相似度函数,采用竞争聚类思想,能够自动确定最佳的聚类数目。对推荐算法中的相似度函数进行改进,采用关联规则发现得到页面推荐集。④提出基于兴趣聚类的个性化推荐系统模型。系统分为离线和在线两个模块,能够为用户提供实时的个性化服务。⑤通过实验验证论文中日志数据预处理方法的正确性,兴趣聚类和个性化推荐方法优于改进前的方法。最后,对所做的工作进行了归纳于总结,展望将来进一步的研究工作。