论文部分内容阅读
Internet的快速发展使得网上交易成为人们日常买卖行为中的一种重要形式,电子商务也因此得到了的蓬勃发展,而且正在成为一种潮流,随之而来的是大量web数据的产生,这些web数据广泛分布在网络服务器上,分布于世界各地,只要你拥有一台存放着电子商务系统的web服务器,你就可以获取这些潜藏着巨大商业价值的web数据。信息技术的发展让人们研究这些web数据成为现实,但是仍然存在两个方面的问题:如何有效的组织并存储如此大数量级的数据?如何利用有效的数据分析方法对海量数据进行分析,并从中发现具有实用价值的信息?这两个问题也正是本文要研究的内容。数据仓库最先是为基于关系型数据库的大量的数据存储问题而提出的一种解决方案,数据挖掘同样是为了实现对存储在关系型数据库的大量数据进行有效分析而提出的一种方法。随着web技术的不断发展,数据仓库、数据挖掘技术逐渐与web技术进行了融合,使得web数据仓库和web数据挖掘技术应运而生。本文首先对数据仓库和数据挖掘的基本概念和相关技术进行了概述,而后结合web数据仓库的知识,从数据仓库的总体架构、模型设计、元数据设计等方面对销售自动化系统点击流数据仓库的构建过程进行了详细阐述,得出了一个可用的点击流数据仓库的解决方案,并使用微软数据仓库构建工具对点击流数据仓库进行了实现。接着讨论了点击流数据的收集方法,将点击流分为静态点击流和动态点击流两种类型,分析了从web服务器日志文件获取静态点击流存在的问题以及数据预处理中的难点,提出了动态点击流收集策略的思想,该方法可以高效灵活的获取点击流信息,避免了数据预处理问题。最后结合web数据挖掘技术,提出了一种用户频繁偏爱路径挖掘算法,利用该算法可以发现用户的共同浏览兴趣,能够从多侧面深入了解用户行为,进而指导销售自动化系统改进结构,利用web开发技术实现了挖掘算法并将分析结果进行了展示。