论文部分内容阅读
在浩如烟海的互联网信息世界中,人们高效率地获取所需信息越来越难。究其因为,一是由于信息资源在分散性和用户信息需求的有限性和动态性之间在矛盾,二是现有搜索引擎和信息服务工具存在缺陷与信息服务准确、实时的需求之间不适应。比较好的解决方法就是寻求一种优秀的信息服务方式,使其更好地满足用户的需要。数据挖掘和数据仓库技术起源于对大量数据的存储和分析的需要。在激烈的市场竞争环境下,基于业务数据的决策分析系统将发挥巨大的作用。正是在这种需求的推动下,支持海量数据存储、OLAP(联机分析处理)和数据挖掘应用的数据仓库技术应运而生。其中,点击流数据仓库是数据仓库技术发展的一个方向。
随着电子商务的飞速发展,电子商务对企业的经营活动开始产生巨大的经济效益和社会效益。电子商务网站每天都产生大量的点击流数据。在这些点击流数据中,包含着对企业决策非常有用的信息。比如:Web客户的来源、行为以及兴趣爱好等。通过对这些数据进行有效分析,不仅能够对网站的建设起到指导作用,改善客户关系管理和提高客户体验度,还能够反映产品的市场、营销方面的状况,提高企业在市场营销和服务等各方面的质量。
本文探讨了点击流数据仓库的建立及其应用。首先研究了点击流数据仓库的维度建模方法、设计了一个面向Web用户行为挖掘主题的数据集市和点击流数据集市的ETL处理机制。在数据仓库的多维模型设计中,讨论了Web点击流数据仓库的各种数据来源、站点用户的识别级别划分、页面识别技术和会话识别技术,并且提出面向Web用户行为挖掘主题的会话事实表、页面点击事实表、客户-业务事实表以及各事实表的维度属性。在建立了点击流数据仓库之后,本文还提出一个改进的频繁项集挖掘算法--TMDHP算法。TMDHP算法利用散列技术以及事务标记的方法,快速筛选Web用户的点击流数据中的频繁点击模式,然后利用SAS EM软件中的Link Analysis模块进行Web用户的行为挖掘。最后再对数据挖掘结果进行图形化显示和分析。
最后对论文阐述的内容做了简要总结,针对点击流数据仓库应用研究的发展趋势和发展方向做出展望。提出本文的不足之处主要表现在Web客户行为挖掘结果方面缺少深入分析,以及未能实现结合其他数据源对Web客户进行流失分析并且将分析结果运用于企业的决策分析过程中。这些都将为下一步继续研究的重点内容。