论文部分内容阅读
摘 要:当今时代,电子商业不断发展,物流数据呈爆炸式增长。大规模的物流数据必定含非常有价值的信息,这些数据不仅能帮助物流公司了解行业动态,而且能够提供参考资料,让企业经营人员做出正确的决策。对大量的物流数据存储和分析需要越来愈强烈,因此,建立物流数据仓库是一个非常重要问题。
关键词:大数据;物流;数据仓库;
0引言
近几年,物联网、大数据等技术在各行各业中的应用迅速普及,而物流行业如果能够深度整合大数据、云计算等新技术,那么将会大大提升物流行业的整体效率。
1大数据的概念
大数据最明显的特征是数据量特别大,并且种类较多,但有价值的数据较少。网络的发展以及信息技术的提升,会使各个行业的生产和消费行为产生大量的数据,而分析这些数据可以充分挖掘潜在的价值,从而促进企业的发展。
2数据仓库的相关介绍
数据仓库以面向分析为设计初衷,可以存储更多的数据,为企业提供决策支持。数据仓库中的数据一般为历史数据,主要记录了过去某一时段的信息。
2.1数据仓库的主要特征
数据仓库中的数据四个主要特征是面向主题、集成、非易失、随时间变化,它用于支持管理者的决定。
2.1.1面向主题
主题是指在利用数据仓库进行分析时用户着重关心的点,因此主题需要根据分析的要求来定。从逻辑上说,它是与企业宏观分析相对应的领域。
2.1.2集成性
数据在进入数据仓库之前是分散的,并且有很多脏乱差的数据,因此需要将这些数据抽取、清洗、转换和加载。要统一数据间的所有矛盾 ,其次再对数据进行综合和统一计算。
2.1.3非易失性
在数据仓库中,只需保存过去的业务数据,而不必对每项业务进行实时的更新。数据被加入到数据仓库,一般很少进行修改和删除的操作,多为数据查询,或者是更复杂的挖掘,通常会保持更长时间。
2.1.4时变性
数据仓库中的数据可能是一年、一个季度、一个月、一个星期或一天的数据。数据仓库的目标是分析企业在经营中的一段时期情况,并充分挖掘企业潜在的模式。数据仓库中的数据并不是永远不变的,只是说用户一般不会修改其中的数据,但会定期更新。分析的是历史数据,结果也只能反映以往的情况,当业务发生变化时,挖掘出的模式就会失去其时效。因此,数据仓库中的数据需要更新,以适应决策的需求。从这一角度来看,数据仓库建设是项目,更多的是过程。
2.2数据仓库分层架构
根据数据的进出过程,数据仓库架構可以分为源数据层,数据仓库层和数据应用层。数据仓库的数据来源有很多种途径,而且可以应用到很多地方。数据仓库是一种管理平台,它负责集成的中间数据,数据进入数据仓库后,会向上层开放。
2.2.1源数据层(ODS)
该处理层中的数据不需要改变,直接可以使用外部系统的数据结构和处理数据,不对外开放;为临时数据储存处理层,是外部接口系统数据的临时进行储存处理区域,为进行后续接口数据处理应用作提前准备。
2.2.2数据仓库层(DW)
数据仓库层也又称细节处理层,数据仓库层的数据在应用时具有较高一致性、精确的和干净性,也就是在清洗了源数据层中的数据之后的数据。
2.2.3数据应用层(DA)
这一层的数据一般是根据各种维度分析处理的结果。
3物流企业数据仓库的设计
3.1物流企业数据仓库分析
随着电商的不断发展,物流企业累积了大量的货运资料,但这些信息并不都有助于物流企业,真正的帮助了物流公司的决定者,从而促进了自身的发展,只是在这些信息的大量中很少的一部分。为了获得这些巨量的物流信息,并从这些巨大的物流信息中获取真实价值的信息,必须分析这些巨大的物流信息。数据仓库非常适合于分析物流企业各种资料,它可以对物流企业进行不同的源资料分析,或者进行数据分析,从而对物流企业发展提供更好的支持,实现数据增值。数据间的竞争目前已经非常激烈,物流行业也不例外。因此,建立物流企业数据仓库是非常重要的一项任务。
3.2数据仓库维度建模基本概念
维度模型设计是由中国数据仓库技术界的设计大师Ralph Kimall所倡导的,他所倡导使用的维度数据仓库设计工具箱在中国数据仓库设计界当中是最为广受欢迎的部分。维度数据建模模式是基于维度分析数据决定用户需要的一种模式,它通过构建了一个数据模型系统来准确分析用户需求,因此它的研究重点不仅在于能够解决企业用户如何迅速准确完成数据分析的关键需求,同时还需要具有更好的大型的复杂数据查询以及回应分析能力。
3.2.1事实表
发生在实际世界中的一种操作事件,其产生的可量数值存储在实际情况中。从最小粒度的角度来看,事实表行相对应于一个度量事件。
3.2.2维度表
维度是指当对数据进行分析时使用的量,例如分析产品的销售状况,可以选择分析类别或区域分析,这样的分析构成了一个维。
3.3维度建模模式
3.3.1星型模型
星型模型是在一张事实表的基础上,周围建立维度表,因其形状犹如星星,故称其为星型模型。
3.3.2雪花模型
雪花模型是星型模型的一种扩展模型。雪花模式的维度表也认为可以包含有其它的维度表,尽管这种模式更规范,但由于这种模式不太易被人理解,维护费用相对较高,而且性能较低,所以通常不太常用。
3.3.3星座模型
星座模式是在多张事实表,并可以共享不同维度上的信息。
4物流企业数据仓库实施的意义
传统的物流企业是在关系型数据库的基础上来进行数据存储和处理。而目前企业的业务量较之前扩大了很多,每天产生的数据迅速增长,历史资料的存储规模也不断扩大,同时对数据分析的需求越来愈大,传统数据库无论在硬件和软件方面都有很高的要求,需要非常昂贵的费用来维护,不满足对数据库高扩展、低成本的要求。而数据仓库在查询大量的企业数据方面,具有低成本、高效率、高扩展的优势,因此,物流企业急需建立数据仓库来解决处理海量数据的难题,并对现实具有重要意义。
5结束语
在当下物流企业已积累大量数据的情况下,为了能够更有效地支撑物流服务企业的持续发展,构建数据仓库是非常重要的选择。
参考文献:
[1] 惠毅.浅谈大数据在物流企业中的应用[J].物流工程与管理,2016,38(1):68-69.
[2] Dean J, Ghemawat S. MapReduce: Simplified Data Processing on Large Clusters [J].Conference on Symposium on Operating Systems Desigin&Implemention, 2004,51(1):137-150.
[3] 罗鹏,袁兵,梁耿等. 基于 Hadoop 的分布式 ETL 系统研究 [J]. 广西通信技术,2014(4):17-20.
[4] 费仕忆.Hadoop 大数据平台与传统数据仓库的协作研究[D].上海:东华大学,2010.
[5] Zaharia M, Chowdhury M, Franklin MJ, etc. Cluster Computing with Working Sets [J].Usenix Conference on Hot Topics in Clouding Computing, 2010, 15(1), 10-10.
(北京信息科技大学信息管理学院 北京 100000)
关键词:大数据;物流;数据仓库;
0引言
近几年,物联网、大数据等技术在各行各业中的应用迅速普及,而物流行业如果能够深度整合大数据、云计算等新技术,那么将会大大提升物流行业的整体效率。
1大数据的概念
大数据最明显的特征是数据量特别大,并且种类较多,但有价值的数据较少。网络的发展以及信息技术的提升,会使各个行业的生产和消费行为产生大量的数据,而分析这些数据可以充分挖掘潜在的价值,从而促进企业的发展。
2数据仓库的相关介绍
数据仓库以面向分析为设计初衷,可以存储更多的数据,为企业提供决策支持。数据仓库中的数据一般为历史数据,主要记录了过去某一时段的信息。
2.1数据仓库的主要特征
数据仓库中的数据四个主要特征是面向主题、集成、非易失、随时间变化,它用于支持管理者的决定。
2.1.1面向主题
主题是指在利用数据仓库进行分析时用户着重关心的点,因此主题需要根据分析的要求来定。从逻辑上说,它是与企业宏观分析相对应的领域。
2.1.2集成性
数据在进入数据仓库之前是分散的,并且有很多脏乱差的数据,因此需要将这些数据抽取、清洗、转换和加载。要统一数据间的所有矛盾 ,其次再对数据进行综合和统一计算。
2.1.3非易失性
在数据仓库中,只需保存过去的业务数据,而不必对每项业务进行实时的更新。数据被加入到数据仓库,一般很少进行修改和删除的操作,多为数据查询,或者是更复杂的挖掘,通常会保持更长时间。
2.1.4时变性
数据仓库中的数据可能是一年、一个季度、一个月、一个星期或一天的数据。数据仓库的目标是分析企业在经营中的一段时期情况,并充分挖掘企业潜在的模式。数据仓库中的数据并不是永远不变的,只是说用户一般不会修改其中的数据,但会定期更新。分析的是历史数据,结果也只能反映以往的情况,当业务发生变化时,挖掘出的模式就会失去其时效。因此,数据仓库中的数据需要更新,以适应决策的需求。从这一角度来看,数据仓库建设是项目,更多的是过程。
2.2数据仓库分层架构
根据数据的进出过程,数据仓库架構可以分为源数据层,数据仓库层和数据应用层。数据仓库的数据来源有很多种途径,而且可以应用到很多地方。数据仓库是一种管理平台,它负责集成的中间数据,数据进入数据仓库后,会向上层开放。
2.2.1源数据层(ODS)
该处理层中的数据不需要改变,直接可以使用外部系统的数据结构和处理数据,不对外开放;为临时数据储存处理层,是外部接口系统数据的临时进行储存处理区域,为进行后续接口数据处理应用作提前准备。
2.2.2数据仓库层(DW)
数据仓库层也又称细节处理层,数据仓库层的数据在应用时具有较高一致性、精确的和干净性,也就是在清洗了源数据层中的数据之后的数据。
2.2.3数据应用层(DA)
这一层的数据一般是根据各种维度分析处理的结果。
3物流企业数据仓库的设计
3.1物流企业数据仓库分析
随着电商的不断发展,物流企业累积了大量的货运资料,但这些信息并不都有助于物流企业,真正的帮助了物流公司的决定者,从而促进了自身的发展,只是在这些信息的大量中很少的一部分。为了获得这些巨量的物流信息,并从这些巨大的物流信息中获取真实价值的信息,必须分析这些巨大的物流信息。数据仓库非常适合于分析物流企业各种资料,它可以对物流企业进行不同的源资料分析,或者进行数据分析,从而对物流企业发展提供更好的支持,实现数据增值。数据间的竞争目前已经非常激烈,物流行业也不例外。因此,建立物流企业数据仓库是非常重要的一项任务。
3.2数据仓库维度建模基本概念
维度模型设计是由中国数据仓库技术界的设计大师Ralph Kimall所倡导的,他所倡导使用的维度数据仓库设计工具箱在中国数据仓库设计界当中是最为广受欢迎的部分。维度数据建模模式是基于维度分析数据决定用户需要的一种模式,它通过构建了一个数据模型系统来准确分析用户需求,因此它的研究重点不仅在于能够解决企业用户如何迅速准确完成数据分析的关键需求,同时还需要具有更好的大型的复杂数据查询以及回应分析能力。
3.2.1事实表
发生在实际世界中的一种操作事件,其产生的可量数值存储在实际情况中。从最小粒度的角度来看,事实表行相对应于一个度量事件。
3.2.2维度表
维度是指当对数据进行分析时使用的量,例如分析产品的销售状况,可以选择分析类别或区域分析,这样的分析构成了一个维。
3.3维度建模模式
3.3.1星型模型
星型模型是在一张事实表的基础上,周围建立维度表,因其形状犹如星星,故称其为星型模型。
3.3.2雪花模型
雪花模型是星型模型的一种扩展模型。雪花模式的维度表也认为可以包含有其它的维度表,尽管这种模式更规范,但由于这种模式不太易被人理解,维护费用相对较高,而且性能较低,所以通常不太常用。
3.3.3星座模型
星座模式是在多张事实表,并可以共享不同维度上的信息。
4物流企业数据仓库实施的意义
传统的物流企业是在关系型数据库的基础上来进行数据存储和处理。而目前企业的业务量较之前扩大了很多,每天产生的数据迅速增长,历史资料的存储规模也不断扩大,同时对数据分析的需求越来愈大,传统数据库无论在硬件和软件方面都有很高的要求,需要非常昂贵的费用来维护,不满足对数据库高扩展、低成本的要求。而数据仓库在查询大量的企业数据方面,具有低成本、高效率、高扩展的优势,因此,物流企业急需建立数据仓库来解决处理海量数据的难题,并对现实具有重要意义。
5结束语
在当下物流企业已积累大量数据的情况下,为了能够更有效地支撑物流服务企业的持续发展,构建数据仓库是非常重要的选择。
参考文献:
[1] 惠毅.浅谈大数据在物流企业中的应用[J].物流工程与管理,2016,38(1):68-69.
[2] Dean J, Ghemawat S. MapReduce: Simplified Data Processing on Large Clusters [J].Conference on Symposium on Operating Systems Desigin&Implemention, 2004,51(1):137-150.
[3] 罗鹏,袁兵,梁耿等. 基于 Hadoop 的分布式 ETL 系统研究 [J]. 广西通信技术,2014(4):17-20.
[4] 费仕忆.Hadoop 大数据平台与传统数据仓库的协作研究[D].上海:东华大学,2010.
[5] Zaharia M, Chowdhury M, Franklin MJ, etc. Cluster Computing with Working Sets [J].Usenix Conference on Hot Topics in Clouding Computing, 2010, 15(1), 10-10.
(北京信息科技大学信息管理学院 北京 100000)