论文部分内容阅读
随着信息技术的发展,经济全球化进程的加快,连锁商业企业纷纷崛起,大量分布的连锁分店、配送中心与总店间通过网络互连,形成了分布型的商业共享数据环境。这种环境下,商业数据库中的数据存储形成了以下几个重要的特点:(1)每天都会有新的经营数据存入,数据量越来越大;(2)数据分布在各分店内,难以集中到统一的数据中心;(3)各区域数据特性不一致,具有分布分析的价值;(4)数据存储形式不一致,数据异构性与差异性大。本文针对这些数据存储的特点分析了传统的各种决策树算法,包括集中式决策树算法(如ID3、C4.5算法等)和分布式决策树算法(如SPRINT、SLIQ等),这些算法不是针对连锁商业企业的应用环境而研究的,难以满足日益复杂的连锁分布数据挖掘。本文深入讨论了面向连锁商业企业内部的分布式数据库之间存在的联系,认为不同地域之间由于生活习惯、经济水平、人口因素等原因的存在使得不同地域之间的消费习惯不同。因此,不同地域之间存储的消费数据会存在不同的特征。因此,本文提出了基于地域因素的分布式决策树ZDT算法,该算法针对连锁商业企业的地域分布特点,在J4.8算法的基础上加入地域因素,并将地域因素作为首要的分支属性,然后再以信息增益率为其它属性的选择标准,最后生成一棵基于地域因素的决策树,实现面向连锁商业企业的分布式的决策树挖掘。文中引入了地域因子和决策树特征差异的概念,并给出了决策树特征差异算法,通过地域分支算法获得决策树的地域分支头部,通过决策树特征差异率计算不同地域之间生成的决策树的特征相同程度。最后,对特征差异率超过指定阀值的决策树分支进行合并,由此避免生成的决策树过于庞大。本文在ZDT算法的实现过程中利用网格技术,实现基于网格技术的ZDM系统,即GZDM系统。GZDM利用多种优秀开源的工具,实现ZDT算法的分布式计算;GZDM实现BCS(Browse-Client-Server)结构,该结构保证用户可以通过浏览器对网格资源进行操作。第五章详细分析了GZDM的概念模型、基于VO-BUS的拓扑结构、ZDT算法在GZDM中的执行流程。最后通过实验测试GZDM与ZDT算法的可行性。经过实验的测试与分析,可以知道GZDM模型与ZDT算法在一定程度上是切实可行的,为连锁商业企业的分布式商业数据挖掘的应用提供了可操作的理论与实践模型。