连锁超市数据集市的数据模型设计研究

来源 :商场现代化 | 被引量 : 0次 | 上传用户:xuguanghong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘 要] 在研究数据仓库技术的基础上,将“数据仓库”理论运用于我国发展中的连锁超市的决策管理,提出了连锁超市数据集市的数据模型——雪花模型。并对数据模型中的事实表、维度表、大维度、粒度、聚集事实表等相关的技术问题,进行了细致的探讨。对研究并建立连锁超市数据仓库具有参考价值和实际意义。
  [关键词] 连锁超市 数据仓库 数据集市 雪花模型 基础事实表 维表 聚集事实表
  
  随着市场经济的发展和人民生活水平的提高,购物环境舒适的超级市场正在得到越来越多消费者的青睐,连锁超市已经成为我国商业零售业的发展主流。加入WTO后,我国商业零售业在应对国内竞争的同时,将面临来自沃尔玛、家乐福、麦德龙等国际零售巨头激烈的国际竞争。因而我们不仅要密切跟踪行业发展趋势,同时要借鉴吸收国内外先进的管理模式,坚持本土化和国际化相结合,在营销和管理工作上走出自己的经营特色之路,最终在竞争中求得生存与发展。
  在信息时代,谁能在信息的海洋中获取更多的知识,谁就能取得成功的主动权。信息技术在企业的决策和商业活动中起着重要的支持作用。
  信息技术的迅速发展和企业管理决策的迫切需要,使数据仓库理论应运而生,并成为决策支持领域中实用性极强的技术。
  一、数据仓库和数据集市
  数据仓库技术是当前用于企业决策支持的、先进的有效方法。
  1993年,W.H.lnmon在其所著《Building the Data Warehouse》中对数据仓库进行了完整的界定。他将数据仓库定义为:“一个面向主题的、集成的、随时间变化的、非易失性的数据集合,用以支持管理层的决策”。这一界定被学术界广泛认同。W.H.lnmon关于数据仓库的定义,可以从几方面来理解:
  1.数据仓库是一种数据资源集成与整合的具体方法。数据仓库不同于一般的数据库。它是按照一定的要求、围绕明确的主题,对原有分散的、相互独立,异构的操作型数据进行有效集成。
  2.数据仓库存储的数据具有相对的稳定性。
  3.数据仓库的数据主要用于对管理决策过程的支持。
  数据仓库的鲜明特点,使数据仓库技术具有广泛的应用前景。目前,已有不少行业把数据仓库技术用于数据管理和决策支持,取得了经验,产生了效益。
  数据集市是数据仓库的一个子集,它面向部门级业务,面向某个特定的主题。是一种简化的小型数据仓库。实际上,多个相互联系的、围绕一个宏观大主题的多个数据集市的集成,就构成了数据仓库。数据集市和数据仓库在其实现过程和数据模式方面,没有根本的差异。而数据集市比数据仓库更为简洁、方便,易于快速实施并应用。因此,在建立企业级的数据仓库前,可规划建立多个部门级的数据集市,在此基础上,集成实现企业级的数据仓库。
  二、数据仓库的“星型模型”
  “星型模型”是数据仓库广泛采用的数据模型。它能准确、简洁地描述出实体之间的逻辑关系。数据仓库的其他数据模型,一般是在“星型模型”的基础上的变形与扩充。一个典型的星型模式包括一个大型的事实表和一组逻辑上围绕这个事实表的维度表。如图1所示:
  事实表是星型模型的核心。用于存放大量的具有业务性质的事实数据。事实表由主键和事实的度量数据两部分组成。事实表通过主键,把各维度表链接在一起,形成一个相互关联的整体,共同描述主题。事实表中存放的大量数据,是同主题密切相关的、用户最关心的、对象的度量数据。
  维度是观察事实、分析主题的角度。维度表的集合是数据仓库数据模式的关键。维度表通过主关键字与事实表相连。用户依赖于维度表中的维度属性,对事实表中的事实数据进行查询、分析,从而得到支持决策的数据。
  因此,对事实表和维表的分析设计,是数据仓库数据模型设计的关键。
  三、连锁超市数据集市的数据模型
  数据模型是建立数据仓库的基础。业务需求是进行数据仓库数据模型设计的驱动力。连锁超市商品销售情况可以看作超市管理数据仓库的一个子集,即数据集市。适宜选用以“星型模型”为基础,建立能满足需求的连锁超市数据集市的数据模型。
  1.事实表的设计
  如前所述,事实表由主键和度量数据两部分组成。星型模型中各维度表主键的组合构成事实表的主键。针对本文的研究主题,最需要关注的是连锁超市商品销售情况。因此,在事实表中,要准确记载各连锁超市所畅销的商品、销售数量、营业额、利润等度量数据。
  事实表中数据的细节程度或综合程度的级别称为数据“粒度”。粒度是数据仓库事实表的重要的特征。粒度的级别依赖于维表的属性。不同的需求,对数据仓库的粒度要求不同。
  连锁超市数据集市需要保留最低层次的细节数据,以满足数据集市的信息查询要求。很多数据挖掘的应用程序也需要最低层次的数据颗粒。再者,低粒度的事实表便于从操作型系统中抽取源数据。此外,最低层次的细节数据是聚集事实表的基础。
  另一方面,为提供决策支持,需要多方面的高粒度的汇总数据。
  因此,连锁超市数据集市的数据模型设计,要能方便获取从最低层次的细节数据到高度概括的汇总数据。这不仅需要设计好事实表,同时依赖于维度表属性的设计。
  2.维度表的设计
  维度表的集合是建立数据仓库数据模型的关键。
  建立连锁超市数据集市的目的是要从各个角度,分析对商品销售情况的影响,为管理者在研究超市发展策略等方面,提供决策支持。
  针对连锁超市需要掌握的基础信息和决策的需求,在连锁超市数据集市中,设计了以下维度及其主要属性。
  客户维:这是最重要的一个维度,在商界,“客户就产上帝”。在客户维中,建立了客户的基本信息、是否为会员客户、客户居住地域等,以便掌握客户个人细节数据。从数据粒度的需要,客户维还建立了客户的会员关系和属地等。为建立聚集事实表作好准备。
  商品维:商品维也是一个重要的维度。商品不仅决定了超市的经营范围,商品的结构、品牌、质量直接影响营业额。在商品维中,设计了商品代码、商品名称、商品类别、品牌名称、包装类别等维度属性。
  时间维:在数据仓库的多维数据结构中,时间维往往是不可少的一个维度。因为每项“销售事实”都是在一定的时间或者时间段内发生。针对需求,时间维采用日、月、季、年四个属性。
  连锁店维:各连锁店承担了全部商品的销售业务。连锁店的服务质量直接影响企业的竞争力、销售业绩和企业利润。连锁店维中建立了连锁店名、销售经理、规模、所在地域等维度属性。
  根据上述分析,建立连锁超市数据集市的星型数据模型,如图2所示:
  3.处理好大维度问题
  在上列各个维度中,客户维和商品维都是典型的大维度。这是因为:大的连锁超市,客户维和商品维很深,累计可能有数以万计的客户和上万种商品;客户维和商品维很宽,根据需要,这两种维可以有多个维度属性。
  数据仓库的大维度,会给数据仓库的操作应用带来一些问题。大维度中的长文本字段不仅占用存储空间,而且维度数据不易更新和维护;向大维度表填充数据难度增大;对事实表的查询涉及大维度表时,会影响效率。解决数据仓库“大维度”问题较好的办法是采用“雪花模型”。
  “雪花模型”是在星型模型的基础上拓展而来的。将“星型模型”中的大维度表进分解,通过增加详细类别表,形成一些局部的层次区域,就演变成为“雪花模型”。将连锁超市数据集市中的两个大维度表——客户维和商品维进行“雪花化”。分解出相应的类别表,既解决了大维度表带来的问题,也为建立“聚集事实表”作好了准备。
  基于上述分析,设计出低保基础信息数据集市的雪花模型构架。如图3所示:
  四、连锁超市数据集市聚集模型设计
  “聚集”是从最低粒度的事实表中衍生出来的的预先计算的汇总数据。这些汇总数据形成了一组独立的聚集事实表。实际应用中,可以根据需要用跨越任何维度的特定的汇总数据构建为一个聚集事实表。
  1.建立数据集市聚集事实表的必要性
  建立低保基础信息数据集市的主要目的,是要为管理者提供具有决策价值的汇总数据。因此,把使用频率高的汇总数据存放在聚集事实表中,对提高数据集市的的使用性能,为管理者提供决策支持,使用户获得更好、更快的查询结果,是非常必要的。数据集市聚集模型的好坏将在很大程度上影响到数据集市的使用效果。
  2.怎样建立聚集事实表
  在数据集市中建立聚集事实表,要注意以下原则:
  ⑴每一个不同的聚集必须使用单独的事实表存储聚集数据,成为相对独立的聚集事实表。
  ⑵聚集事实表中的维表必须是基本事实表中的维表的压缩。
  ⑶基本事实表中的度量数据加载后,才能作聚集处理。
  3.连锁超市数据集市常用的聚集事实表
  每一个数据仓库(数据集市),都可能有多个维度表。因此,一个数据仓库(数据集市)会有很多个聚集事实表。究竟需要那些聚集,要针对用户需求和决策需要。例如,连锁超市数据集市中可建立以下常用聚集事实表:
  ⑴单路聚集:在有多个维度的数据模型中,如果只有一个维度升高维度层次,其他维度保持最低层次,所生成的事实表为单路聚集事实表。在连锁超市数据集市中,把时间维度的属性层次升高到月、季或年,其他维度层次保持不变,就生成一个单路时间聚集事实表。
  ⑵二路聚集:在多维数据模型中,如果有二个维度升高维度层次,其他维度保持最低层次,所生成的事实表为二路聚集事实表。在连锁超市数据集市中,如果需要掌握在某年对会员客户的销售情况,可以生成时间维属性为年,客户维属性为会员,其他维保持不变的二路聚集事实表。如图4所示。
  ⑶三路聚集:在多维数据模型中,如果有三个维度升高维度层次,其他维度保持最低层次,所生成的事实表为三路聚集事实表。例如:在连锁超市数据集市中,需要掌握在某年会员客户对某个品牌商品的购买情况,就需要对销售事实表进行三路聚集,如图5所示。
  按照上述方法,可以根据需要灵活方便地生成多个聚集事实表。
  五、结束语
  能否满足需求,是衡量一个应用软件质量的重要依据。利用本文提出的连锁超市数据集市的数据模型架构,不仅为建立连锁超市数据集市奠定了基础;而且为数据集市的发展利用创造了条件。通过数据挖掘技术,能够从多方面获取连锁超市经营管理中的重要信息,为企业在竞争中取得主动权,促进企业的进一步发展,提供决策支持。
  参考文献:
  [1]王志海:数据仓库[M].机械工业出版社,2003
  [2]邵红全 赵 茜:运用多维数据模型实现数据集市[J].河北省科学院学报,2003(2):99~102
  [3]段云峰:数据仓库基础[M].电子工业出版社,2004
  [4]李姗姗 宁 洪 陈 波:通用数据仓库元数据模型的研究[J].计算机工程与应用,2004,26(5):52~55
  [5]刘中蔚 陈 红:用基于元数据库的工作流调度数据仓库的更新[]].计算机应用研究,2006,23(3):178~180
  [6]范 明:数据挖掘概念与技术[M].机械工业出版社,2004
  [7]平 静 林平瑞:元数据管理及其在数据仓库中的应用[J].平原大学学报,2006(8):130~132
  [8]彭晓东:基于数据仓库的综合决策支持系统的设计研究[j],电脑开发与应用,2003(6):11~20
其他文献
旅游消费需求的满足依赖于提高旅游消费密度来实现,旅游消费密度不能无限度地提高,而收入的迅速增长却使得旅游需求有了前所未有的提高,传统需求的概念在旅游中遇到了时间的
[目的]可识别性是指将一件数字对象与其他数字对象区分开来的特性,以实现该数字对象的发现和检索;设计并验证保存系统中数字对象的可识别性风险模型。[方法]阐释可识别性涵义
[摘 要] 长三角城市群经历了由行政主导到市场主导,由集聚到扩散再到集聚的发展过程,其演进的主要阶段和动力机制丰富了城市群理论。借鉴欧美城市群“精明增长”等经验,长三角能解决其存在的利益不协调、规划不合理及创新不足等问题,实现优化发展。  [关键词] 长三角 城市群 发展阶段 精明增长    城市群是相当数量地域上临近的城市,借助交通、信息、功能、智力等联系形成的城市聚合网。长三角城市群发育较为成
我国少数民族传统体育文化源远流长,各种形式的体育活动是民族传统体育旅游的重要资源,这些得天独厚的少数民族体育旅游资源,为其开发利用奠定了坚实的物质基础。
理论研究表明,存款保险定价机制导致商业银行风险转移和道德风险问题,传统资本和资产监管旨在解决风险转移问题,却导致了低效率问题。管理层的激励参数可以作为存款定价的参
随着我国对外贸易经济发展步伐的加快,市场对高职高专商务英语专业人才需求不断扩大。本文以云南省高职高专商务英语专业现状为例提出了改革模式。
本文系河北省哲学社会科学规划研究项目(项目编号:200605020)和河北省科学技术研究与发展计划项目(项目编号:044572134)系列成果之一    资源的有限性和有价性使得其如何合理配置成为一个重要的研究领域,和其他资源一样,信息资源也存在配置问题。通过信息资源的合理配置,使用户便捷又准确地获取所需要的信息资源,最大限度地发挥信息资源的作用,从而实现信息资源配置的最优化。信息资源配置只有与用
〔摘要〕随着我国金融市场和网络技术的发展,财经垂直门户成为了财经信息服务的主体。在分析我国财经垂直门户特点的基础上,借助信息生态理论,提出了一种自上而下构建财经垂直门户服务质量层次本体评价模型的方法,并且结合层次分析法设计了相应的服务质量评价软件,将抽象的服务质量评价模型具体化为定量的指数排序。运用评价软件对我国5个具有代表性的财经垂直门户进行了评价,并对结果进行了讨论。  〔关键词〕财经垂直门户
<正> &#39;四川长虹&#39;是我国股市中的老牌绩优权重股;&#39;长虹&#39;家电,在我国市场上颇受消费者青睐;而长虹的当家人倪润峰,在我国企业家行列里亦可谓独领风骚。然而,打
〔摘要〕[目的/意义]共享平台是共享经济下图书馆服务模式转变的主要驱动力,能够促进图书馆服务向多元化、精准化、共享化的模式转变。[方法/过程]本文将共享经济模式与共享平台相结合,对共享型图书馆服务模式展开了研究工作,结合电子商务企业及互联网平台的成功案例,对共享型图书馆服务模式中共享平台的概念与内涵、共享平台的核心要素、共享平台的服务策略、共享平台的个性化推荐等方面进行了详细的阐述。[结果/结论]