论文部分内容阅读
介绍Web日志挖掘的预处理过程,其中包括数据清理、站点拓扑识别、用户识别、会话识别、页面过滤和路径补充.针对无引用域记录日志的路径补充间题,提出并实现一种基于网站拓扑图的路径补充算法.讨论一种综合多重评价因素的用户相似度计算方法,并将其应用于Web用户聚类操作.使用Davies-Bouldin指标衡量聚类的效果并给出实验结果.