论文部分内容阅读
随着Internet的迅速发展,人们面对太多的信息无法选择和消化,淹没在繁杂的信息中,这种现象称为信息过载。Internet上信息资源分布的广泛性又给用户寻找感兴趣的信息增加了困难,用户不知道如何更有效地发现自己所需的信息资源,即信息迷失。当前我们主要采用搜索引擎来检索Web上的信息,但是大多数搜索引擎缺少主动性,没有考虑用户的兴趣偏好和用户的不同,无法有效地解决信息过载和信息迷失的问题。直接或间接解决这个问题的途径之一就是将数据挖掘技术应用于Web服务器日志的挖掘。而Web日志数据通常是大量的、冗余的,日志中的页面之间的关系也是模糊的、不确定的。粗糙集理论是有效处理不精确和含糊信息的软计算工具,而模糊逻辑可以依据客观事务间的特征、亲疏程度和相似性,通过建立模糊相似矩阵对客观事务进行聚类。关联规则挖掘是发现大量数据中项集之间有趣的关联或相关联系。它是数据挖掘中是一个重要的技术,最近几年已被业界所广泛研究。Web日志挖掘可以从网站的日志数据中获取用户的浏览模式,根据用户的行为模式,改进站点的设计和结构,为用户提供个性化服务。所以本文研究的Web日志挖掘系统模型是具有一定的理论意义和现实价值。本论文首先系统地阐述了从数据挖掘、Web挖掘到Web日志挖掘的整个过程;其次介绍了粗糙集(Rough Sets)和模糊逻辑(Fuzzy Logic)理论,以及基于粗糙集的属性约简算法和模糊聚类算法;然后提出了一种关联规则挖掘的改进算法—基于邻接表索引的Apriori算法,并设计和实现了一个Web日志挖掘系统模型。而且已经使用校园网服务器中一个月的日志记录对此模型进行了测试,并达到了较满意效果。最后,对模型的优势及不足进行了总结,并提出了进一步研究的目标。