论文部分内容阅读
随着Web在信息共享、电子商务和提供在线服务方面的广泛应用,许多企业投入大量资金建立自己的网站用于发布信息,或在别人的网站上为自己的产品和服务作广告,或在网上开展电子商务活动,它们迫切需要了解这些投资产生的效益和作用,以便改进企业的策略,获取更多的商业机会,为用户提供更优质的服务。因此,理解用户的行为对这些企业来说至关重要。 本文以Web日志记录为基础对Web使用挖掘过程进行系统的分析和研究,在前人研究模型的基础上提了四个新的模型方法,并将这些模型引入到Web使用挖掘过程中,设计和实现了一个Web使用挖掘系统(WUMS),从而挖掘出用户的消费模式。 因此,本文的工作主要有以下几个方面: 1、对Web使用挖掘进行了可行性分析,指出了目前所存在的难点,详细介绍了数据预处理的各个步骤,并在路径补充方面提出了一个新的算法——觅父节点补充法。 2、在Web页面聚类方面,本文提出一个新的建立网页相似矩阵的模型,该模型在计算页面的引用相似性方面充分考虑了用户的浏览过程,从而使页面聚类更为合理。 3、在寻找用户最大频繁访问路径方面,传统的Web使用挖掘模型大多都只考虑网页的距离而忽视结构层次,致使数据挖掘精度不高,达不到满意的Web挖掘效果。本文提出一种新的Web用户频繁浏览路径挖掘模型,充分考虑了Web网站结构层次特征,克服传统的挖掘的模型存在的问题。 4、在基于马尔可夫的用户聚类方面,本文在传统的模型的基础上提出了一种新的建立用户马尔可夫转移矩阵模型,新的模型充分考虑了网站的拓扑结构,从而提高了Web使用挖掘的精度。并且成功的将用户聚类的结果与用户最大频繁访问路径相结合,发现用户组的兴趣、爱好,从而为商家做商业决策提供了有力的保障。 最后,将提出的新的模型引入到Web使用挖掘活动中,结合关系数据库的特点设计并实现了一个具有可视化功能的Web使用挖掘系统(WUMS)。本文针对本试验室的网站(http://202.118.69.137:8000)的日志记录,通过对本网站近一个月的日志数据进行挖掘测试,验证了本文提出的新的模型的可行性和有效性。