论文部分内容阅读
随着电子商务的迅猛发展,点击流数据仓库的研究越来越引起重视。点击流数据包含许多对企业非常有用的信息,包括客户的来源、消费行为、访问兴趣、访问意图等。通过研究这些信息,能够对电子网站的建设起指导作用,同时也可以了解客户的购买行为,进而优化网站拓扑结构,提高点击流数据仓库的性能,预测产品销售,提升服务质量。本文构建点击流数据仓库的数据源来自某购物网站。从数据仓库的整体框架、设计模型、ETL构建等方面对购物网站中点击流数据仓库的构建过程进行了整体概述,通过实验验证整个构建过程,最后得到一个可用的点击流数据仓库的解决方案。点击流数据仓库的处理问题更多是数据源的问题,针对点击流数据源的多样性,采用基于时间特征的数据抽取策略进行数据预处理;针对点击流数据源的复杂性,采用基于商空间粒度计算的数据挖掘算法。处理过程中重点关注用户在网站上停留时间较长的站点,关注用户频繁访问的站点。通过基于商空间粒度计算的关联规则挖掘技术发现购物网站中不同站点之间的关联程度,多层次、多角度分析挖掘数据源,简化了数据收集的流程,然后结合Web关联规则的数据挖掘技术,改进了的用户频繁偏爱路径挖掘算法。利用寻找到的用户兴趣度,有目的的优化购物网站的网络拓扑结构,改进服务质量,进而增加网站产品销售量。该点击流数据仓库构建方案不仅支持点击流网站信息的日常数据分析,同时支持数据仓库Web日志基础上的用户使用模式的深层次挖掘,进一步分析销售情况。