论文部分内容阅读
随着Internet在全球范围的迅速普及和应用,Web信息量正以惊人的速度增长。如何快速、有效地发现有用的信息资源已成为急待解决的问题。Web挖掘作为一种以从Web的海量信息中挖掘有用知识为目标的技术,从一出现就受到了广泛的关注。Web使用挖掘是Web挖掘的三个主要分支之一。其以Web的使用数据为挖掘对象,期望挖掘出有兴趣的使用模式。Web使用挖掘已经成功应用于个性化服务、提高系统性能和商业智能等领域。本文首先介绍了Web使用挖掘的框架:数据预处理、模式发现、模式分析和模式应用,详细地分析了目前应用于模式发现的各种方法及其存在问题。接下来介绍了基于群体智能的蚁群聚类算法的四种模型,并将最有优势的基于蚁堆聚类的蚁群算法引入Web使用挖掘。然后本文针对Web数据呈现的高纬、方向特性,将方向相似性度量与蚁群聚类算法相结合提出一种基于方向相似性的蚁群聚类算法。实验结果表明,改进后的蚁群聚类算法的聚类效果比经典的LF算法要好,特别地,在方向性数据的处理上,改进后的算法具有明显的优势。最后,将改进的算法应用于Web用户聚类,针对Web的动态性,引入了用户兴趣更新和簇解体机制,实现了增量式用户聚类。实验结果表明,该算法能动态有效地实现增量式用户聚类。