论文部分内容阅读
存储大量数据对企业来说一直是个挑战,相比之下,如何以易于访问和有效的方式管理数据更是严峻的挑战,“数据湖”就是一个有效的解决方案。
数据湖和大数据技术,如Hadoop、HDFS、Hive和HBase,这些在当下是非常流行的解决方案,特别是对于那些需要用更好的方式来存储和处理大量数据和分析的组织来说。由于它们能够以各种形式从各种应用程序提供原始数据,所以通常比企业数据仓库的成本更低。采用这些技术的目的是,组织可以轻松地搜索他们需要的信息,无论来源或格式,帮助他们在日常的业务运作中更有效地分析利用。
除了以上优势,数据湖还为企业提供了一个能力——将数据货币化。由于太多企业在没有考虑长期目标的情况下构建数据湖,使得他们缺少将数据湖转化为可扩展的、弹性的数据货币化平台的能力,导致他们在数据湖中错失了机遇。
因此,下面有五个常见的企业实施错误,可以帮助企业更好地部署数据湖。
太多Hadoop。当Hadoop发行版或群集在企业中大量应用时,这时存储的也许只是大量重复数据。许多企业一点一点地按部门部署Hadoop,造成数据孤岛,阻碍大数据分析,使得员工无法利用所有数据进行全面分析。这实质上只是重复了数据仓库、集市的问题。
太多的管理。一些组织对于数据湖的管理设定了太多限制,例如数据湖的查看、访问和处理权限,没有权限的人不能够访问数据库,导致数据无用。
缺乏有效的管理。太多的管理会适得其反,但缺乏有效的管理也不行。如果数据湖没有被有效管理起来,那么数据湖会迅速被大量低质量的数据所淹没,导致数据被“污染”或“篡改”,最终使得业务不再信任这些数据,使整个数据湖再次变得无用。
非弹性架构。组织错误最常见的是用非弹性架构来构建他们的数据湖。由于数据存储成本很高,组织往往一次一个服务器缓慢而有机地扩展其大数据环境,通常从基础服务器开始,最终添加高性能服务器以跟上业务需求。随着时间的推移,数据存储的增长超出了计算需求的增长,维持如此庞大的物理环境不仅繁琐,成本也是问题。
“宠物计划”。IT团队经常把數据湖的实施视为“宠物计划”,认为如果建立数据湖,就会推动业务团队去使用它。 IT团队希望构建数据湖,并对IT数据执行分析,以证明他们可以代表业务执行分析。但是从业务的角度看,IT使用案例是一个出乎意料的低价值工作,没有为业务利益相关者建立可信度。
创建协同价值创造平台
利用数据湖进行数据货币化的障碍远大于实施数据湖的挑战。但企业如果不了解各种机遇,企业就很难看到更大的局面,并为其数据湖投入足够的资源。
对于抓住机遇,成功克服这些障碍的组织,“数据湖未来”即将到来。 这个未来是专为那些完全接受数据和分析的特性的人所保留的,并且理解数字资产的力量是永不枯竭的,并且可以以接近于零的边际成本在无数用例上使用。 他们将数据湖看作是“协同价值创造平台”,不仅将推动新的效率水平,而且将推动新的数据货币化机会。
与任何新兴技术一样,完全进入数据湖还需要时间。
数据湖和大数据技术,如Hadoop、HDFS、Hive和HBase,这些在当下是非常流行的解决方案,特别是对于那些需要用更好的方式来存储和处理大量数据和分析的组织来说。由于它们能够以各种形式从各种应用程序提供原始数据,所以通常比企业数据仓库的成本更低。采用这些技术的目的是,组织可以轻松地搜索他们需要的信息,无论来源或格式,帮助他们在日常的业务运作中更有效地分析利用。
除了以上优势,数据湖还为企业提供了一个能力——将数据货币化。由于太多企业在没有考虑长期目标的情况下构建数据湖,使得他们缺少将数据湖转化为可扩展的、弹性的数据货币化平台的能力,导致他们在数据湖中错失了机遇。
因此,下面有五个常见的企业实施错误,可以帮助企业更好地部署数据湖。
太多Hadoop。当Hadoop发行版或群集在企业中大量应用时,这时存储的也许只是大量重复数据。许多企业一点一点地按部门部署Hadoop,造成数据孤岛,阻碍大数据分析,使得员工无法利用所有数据进行全面分析。这实质上只是重复了数据仓库、集市的问题。
太多的管理。一些组织对于数据湖的管理设定了太多限制,例如数据湖的查看、访问和处理权限,没有权限的人不能够访问数据库,导致数据无用。
缺乏有效的管理。太多的管理会适得其反,但缺乏有效的管理也不行。如果数据湖没有被有效管理起来,那么数据湖会迅速被大量低质量的数据所淹没,导致数据被“污染”或“篡改”,最终使得业务不再信任这些数据,使整个数据湖再次变得无用。
非弹性架构。组织错误最常见的是用非弹性架构来构建他们的数据湖。由于数据存储成本很高,组织往往一次一个服务器缓慢而有机地扩展其大数据环境,通常从基础服务器开始,最终添加高性能服务器以跟上业务需求。随着时间的推移,数据存储的增长超出了计算需求的增长,维持如此庞大的物理环境不仅繁琐,成本也是问题。
“宠物计划”。IT团队经常把數据湖的实施视为“宠物计划”,认为如果建立数据湖,就会推动业务团队去使用它。 IT团队希望构建数据湖,并对IT数据执行分析,以证明他们可以代表业务执行分析。但是从业务的角度看,IT使用案例是一个出乎意料的低价值工作,没有为业务利益相关者建立可信度。
创建协同价值创造平台
利用数据湖进行数据货币化的障碍远大于实施数据湖的挑战。但企业如果不了解各种机遇,企业就很难看到更大的局面,并为其数据湖投入足够的资源。
对于抓住机遇,成功克服这些障碍的组织,“数据湖未来”即将到来。 这个未来是专为那些完全接受数据和分析的特性的人所保留的,并且理解数字资产的力量是永不枯竭的,并且可以以接近于零的边际成本在无数用例上使用。 他们将数据湖看作是“协同价值创造平台”,不仅将推动新的效率水平,而且将推动新的数据货币化机会。
与任何新兴技术一样,完全进入数据湖还需要时间。