数据准备工具:分析策略的秘密武器

来源 :计算机世界 | 被引量 : 0次 | 上传用户:ybchen123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读

  要想获得数据分析的好处,首先必须正确地准备数据。据市场研究机构Gartner的最新研究显示,对于许多企业来说,这是一个很大的瓶颈,其70%的时间都花在了数据准备工作上了。
  作为《数据准备工具市场指南》的主要作者,Gartner的数据和分析团队高级分析师Ehtisham Zaidi指出,“通过适当的人员及时地查找、访问、清理、转换和共享数据仍然是数据管理和分析中最耗时的障碍之一。”
  日立Vantara的首席营销官Jonathan Martin认为,对于希望通过分析来转变业务的公司而言,主要问题不在于掌握人工智能,而在于掌握数据管道。
  他指出:“数据准备工作是最具挑战性的工作。如何确定所有这些数据在哪里?是否可以建立一个投资组合?是否可以设计管道,以自动化的管理与治理方式将所有这些数据源连接在一起,从而使我们能够在要求的时间范围将这些数据送到正确的位置、合适的人和适当的机器那里?”
  以下我们将深入探讨数据准备为何仍然是数据分析所面临的重大挑战,如何准备数据准备工具以解决这些问题,以及在为企业选择数据准备工具时要寻找哪些内容。

数据准备面临的挑战


  数据准备面临的挑战是由多种因素导致的。
  首先,支持分析计划所需的数据源和数据类型在数量上和复杂性上呈指数级增长。访问这些分布在分布式数据生态系统、公司内部和外部的数据源需要大量的时间、资源、技能和工具才能完成。
  市场研究机构IDC负责数据集成和完整性软件服务的研究主管Stewart Bond说:“当今乃至这个时代的数据环境是非常复杂的。环境中存在着多种不同的数据类型,如交易数据、主数据、社交媒体数据、结构化数据、非结构化数据、日志文件数据、图形数据。不仅数据类型各不相同,并且这些数据所使用的存储技术也都不相同。”
  其次,对自助式数据访问与集成的请求数量正在让IT团队不堪重负。Zaidi认为,这表明集中式IT模型和数据集成已经不再有效。
  他说:“IT部门需要通过易于用户使用和理解的工具来配置数据访问和集成,这是数据准备需求进一步上升的原因。”
  再次,数据需求在不断变化。因为业务分析师、整合者、业务用户、数据工程师和数据科学家对他们的项目都有着不同的数据需求。
  Zaidi表示:“这使得准备一次数据就可以满足不同角色/消费者的不断变化的需求成为了不可能的事情。”

下一代数据准备工具


  他补充道,随着数据准备工具的成熟,痛点已经发生了很大的变化。過去,痛点在于用来连接哪些数据源以及准备哪些数据。如今,公司正在将重点放在数据治理、沿袭、可追溯性和质量上。此外,他们还需要确保具有必要技能的合适人员能够通过数据准备工具访问适当的数据。
  Bond 将此归为“数据智能”问题,即有关数据的元数据。他说:“这种智能包括了解数据的位置、数据的含义,以及谁在使用它们,谁可以访问它们,为什么我们有数据,我们需要保存这些数据多长时间,别人如何使用它们。”
  值得庆幸的是,数据准备工具市场正在不断发展,并且发展出了能够解决这些问题的新功能。上一代工具仅限于简单数据转换要求。数据转换可以说是业务用户所需的数据准备工作中的最后一英里。下一代工具可以与IT团队共享发现结果和准备就绪的模型,并包含了诸如数据编录之类的数据管理功能,这样用户就能够查看和搜索连接的数据资产。
  Zaidi表示:“某些工具现在还嵌入了高级数据质量功能,这些是上一代工具所没有的。这些功能包括性能分析、标记、注释、重复数据删除、模糊逻辑匹配、链接和合并功能。IT和数据管理团队通过这些功能可以更容易提高质量,确保广泛采用和数据模型使用的治理与合规”。
  这里机器学习(ML)是关键。基于机器学习的功能不仅可以在准备之前自动进行数据的匹配、联接、配置文件、标记和注释,而且某些工具可以突出显示敏感属性、反常现象和异常值,并与元数据管理和治理工具进行协作以防止敏感数据被泄露。
  Zaidi解释道:“这些由机器学习增强的数据准备工具允许不同技能水平的用户采用数据准备,同时确保治理和合规性。”

应关注数据准备工具的哪些方面?


  Zaidi指出,企业在评估现代化的数据准备工具时应当将重点放在以下关键功能上:
  ● 数据提取和分析。关注可视化环境,让用户能够以交互方式获取、搜索、采样和准备数据资产。
  ● 数据分类和基本元数据管理。工具应允许用户创建和搜索元数据。
  ● 数据建模和转换。工具应支持数据混搭和混合、数据清洗、过滤,以及用户定义的计算、群组和层级结构。
  ● 数据安全。工具应包括安全性功能,例如数据屏蔽、平台身份验证以及用户/组/角色级别的安全性筛选。
  ● 基本的数据质量和治理支持。数据准备工具应与支持数据治理/管理以及数据质量、用户权限和数据沿袭功能的工具集成在一起。
  ● 数据丰富。工具应支持基本的数据丰富功能,包括实体提取和从集成数据中捕获属性。
  ● 用户协作和可操作性。这些工具应便于共享查询和数据集,包括发布、共享和推广具有治理功能的模型,例如数据集用户评分或官方水印。
  此外,Zaidi还强调要关注以下差异化功能:
  ● 数据源访问/连接。工具应具有基于API和基于标准的连接性,包括原生的对云应用程序和数据源的访问能力,例如流行的数据库PaaS和云数据仓库、本地数据源、关系型和非结构化数据以及非关系型数据库。   ● 机器学习。工具应支持使用机器学习AI来改善甚至自动化数据准备过程。
  ● 混合和多云部署选项。数据准备工具需要支持在云端、本地或混合集成平台中的部署。
  ● 针对特定领域或垂直领域的产品或模板。工具应提供针对特定领域或垂直领域的数据和模型的成套模板或产品,以加快数据准备时间。
  Zaidi在最后指出,用户必须考虑的第一件事是,企业是使用独立的数据准备工具,还是与厂商合作将数据准备嵌入后者的分析/商业智能、数据科学、数据集成工具中。如果用户的大多数使用情况依赖于一系列分析/商业智能和数据科学工具的数据集成,那么请考虑使用独立工具。如果仅在特定平台或生态系统的背景中需要数据准备,则使用这些工具的嵌入式数据准备功能可能更有意义。

数据准备市场概况


  Gartner将数据准备工具供应商分为四类,由于数据准备功能已嵌入所有数据管理和分析工具中,因此每一类都在不断发生着变化。
  独立的数据准备工具。这一领域内的供应商将重点放在了与下游流程进行更紧密集成方面,例如API访问以及对多个分析/商业智能、数据科学和数据集成工具的支持。该领域的工具包括Altair、Datameer、Lore IO、Modak Analytics、Paxata和Trifacta等供应商的产品。
  数据整合工具。此类供应商一直专注于数据集成和管理。相关产品包括来自Cambridge Semantics、Denodo、Infogix、Informatica、SAP、SAS、Talend和TMMData等供应商的解决方案。
  现代分析和商业智能平台。这些供应商专注于将数据准备作为端到端分析工作流的一部分。Zaidi称,由于数据准备对于现代分析和商业智能至关重要,因此该领域的所有供应商都嵌入了数据准备功能。此类别中的供应商包括Alteryx、Tableau、Cambridge Semantics、Infogix、微軟、MicroStrategy、甲骨文、Qlik、SAP、SAS、TIBCO Software和TMMData。
  数据科学和机器学习平台。Gartner指出,这类供应商将数据准备功能作为了端到端数据科学和ML流程的一部分。代表厂商包括Alteryx、Cambridge Semantics、Dataiku、IBM、Infogix、Rapid Insight、SAP和SAS。
  除了以上四个大类之外,Gartner还注意到了其他新兴的具有数据准备功能的新类别,其中包括以下平台和代表性供应商:
  ● 数据管理/数据湖支持平台:Informatica、Talend、Unifi和Zaloni
  ● 数据工程平台:Infoworks
  ● 数据质量工具:Experian
  ● 数据集成专家:Alooma、Nexla、StreamSet和Striim

6个关键的数据准备工具


  下列6个数据准备工具充分展示了当前有关可用功能的发展情况。

Alteryx Designer


  这个独立的数据准备工具其实也是Alteryx Analytics和Data Science平台的一部分,这意味着它们能够作为广泛应用的分析与商业智能平台中的一个功能被嵌入,亦或是作为被广泛应用的数据科学和机器学习平台中的一个功能被嵌入。它们可以提供拖放工作流,无需SQL代码即可分析、准备和混合数据。另外,该工具采取按年订阅并根据用户数量进行收费。

Cambridge Semantics Anzo


  Anzo为Cambridge Semantics的端到端数据发现与集成平台,因此涵盖了上述Gartner的所有4个类别。Anzo在现有数据基础架构上应用了基于语义和图形的数据结构层,以映射企业数据,显示数据集之间的连接,启用可视化探索与发现以及混合多个数据集。Anzo可通过订阅获得,其根据核心数量和用户数量进行收费。

Datameer Enterprise


  Datameer Enterprise为数据准备与数据工程平台,属于Gartner划分的独立类别。其重点是使用由向导引导的集成流程将原始且分散的数据源聚集在一起,以创建单一的数据存储。Datameer提供了类似于电子表格的界面,可用于混合和视觉探索功能。 收费方式采取的是根据计算能力或数据量向客户收费,云用户则按小时收费或是包年。

Infogix Data3Sixty Analyze


  Infogix的Data3Sixty Analyze为基于Web的解决方案,源自于Infogix收购的Lavastorm。与Datameer一样,其涵盖了Gartner的所有4个类别。Data3Sixty通过角色定义用户。设计人员可以创建和编辑数据流,调度器可以创建和修改计划以进行自动处理,但浏览器只能执行数据流。Infogix既将Data3Sixty作为基于订阅的桌面产品,又将其作为基于服务器的产品出售。作为基于服务器的产品出售时,其采取的收费方式为一次收费和订阅两种方式。

Talend Data Preparation


  Talend提供了三种数据准备工具:开源桌面版Talend Data Preparation、Talend Data Preparation Cloud(作为Talend Cloud平台的一部分提供的商业版本)和商业版Talend Data Preparation(作为本地部署的Talend Data Fabric产品的一部分)。Talend数据准备是一个独立的工具,而Talend Cloud和Talend Data Fabric则将数据准备作为一个功能整合到了数据集成/数据管理工具中。Talend使用了机器学习算法进行标准化、清洗、模式识别和对账。开源版本是免费的,商业版本则采取的是指定用户许可证的方式进行订阅。

Trifacta Wrangler


  Trifacta Wrangle是一个独立的数据准备平台,其有着多种版本,可支持云计算和本地计算环境。该平台提供了嵌入式的机器学习功能,能够推荐与之连接的数据、推断数据结构和架构、推荐联接、定义用户访问权限以及能够实现可视化/数据质量的自动化可视化。Trifacta Wrangler有免费版本,有收费版本。其中,Wrangler Pro根据计算力和用户数量收费,Wrangler Enterprise(分为本地版本和云版本) 按计算/处理规模和用户数量收费,Trifacta的Google Cloud Dataprep则根据计算消耗情况收费。
  本文作者Thor Olavsrud长期负责CIO.com网站的数据分析、商业智能和数据科学专栏。
  原文网址
  https://www.cio.com/article/3449897/data-preparation-tools-your-analytics-strategys-secret-weapon.html?nsdr=true
其他文献
应用程序、设备管理和用户体验都会受到影响。而最有发展的领域是在安全方面。  人工智能(AI)和机器学习(ML)的出现使得智能手机变得更加智能。这对企业的移动管理支持具有重大意义。  451研究公司的移动研究和数据策略副总裁Kevin Burden评论说,企业移动管理长期以来都承诺——工作人员无论在哪里都能提高工作效率,加快业务流程,并通过把最新数据交给现场工作人员来提高准确性和效率。他说,人工智能
监督学习可把标记的训练数据转化为经过调优的预测模型。  机器学习是人工智能的一个分支,包括从数据中自动创建模型的算法。从高层次上讲,機器学习有四种:监督学习、无监督学习、强化学习和主动机器学习。由于强化学习和主动机器学习相对较新,因此此类列表有时会省略它们。你也可以把半监督学习添加到列表中,也不算错。  什么是监督学习?  监督学习是从带有正确答案(目标值)的经过标记的训练数据开始的。在学习过程之
交付应用软件的软件即服务(SaaS)模式已变得很常见,对于许多企业组织而言,要不要部署SaaS不再是个问题,问题在于SaaS在企业软件领域应占有多大的比重。  SaaS可能具有的好处众所周知:节省成本、提高敏捷性和更容易扩展等等。 市场研究机构IDC的SaaS和云软件研究主管Frank Della Rosa说:“部署的简易性和速度以及SaaS带来的创新功能,可帮助企业加快数字化转型。”  不过使用
在互联网先驱阿帕网(Arpanet)诞生50年之后,互联网上接入设备的数量已经超过了全球人口总和,流量也已开始以EB为计量单位了。  阿帕网在1969年10月29日發布了第一条消息,为今天的网络世界奠定了基础。50年后,超过40亿人可以接入互联网,连接到IP网络的设备数量是全球人口的两倍多。以下是互联网历史上的一些重要里程碑,以及对其未来增长的预测。  阿帕网——互联网的前身  阿帕网这个名字来自
随着自动化、网络和混合云成为企业不可或缺的一部分,企业网络基础设施将在未来2~3年内获得更多的发展机会。  市场研究机构Gartner副总裁、杰出分析师David Cappuccio在该公司10月末召开的IT Symposium/XPO大会上对一些关于主要的基础设施趋势表示了赞同。Cappuccio指出,Gartner对顶级基础设施和运营趋势的观察反映出了一些技术的分支,例如云计算、自动化和网絡连
数字化设计制造不再是航空航天等高精尖领域的“专利”,正成为传统制造业数字化、智能化转型“必备”。  不同于以往制造业的生产流程,数字化工厂可以整合各种数据模型和方法,能够在盖厂或完成生产系统前,就在计算机上构思未来生产运转的面貌。为了达到这个目标,必须采用计算机辅助软件进行所有厂房、产品组件、机械工具、治夹具、输送系统甚至是作业人员的几何设计,还需要有系统仿真的随机概念以及生产流程3D可视化软件技
开放计算项目(OCP)在2011年启动,Facebook在当时公布了一些其自制服务器的设计,这些服务器旨在让Facebook的数据中心更为高效地运行。  Facebook希望其他的公司能够采用和修改他们的最初设计,在降低成本的同时提升质量。他们确实做到了:针对开放计算项目设计的硬件销售额在2017年达到了12亿美元,这一销售额是上一年度的两倍,预计到2021年有望达到60亿美元。  在IHS Ma
35%有招聘计划的受访者表示,他们将在未来12个月内寻找有这类技能的人。  BCU的Zulpo目前正在寻找一个新的咨询台经理来替换最近离职的人。他表示,他正与很多企业竞争来招聘咨询台人才,而他对这一职位的标准仍然很高。  Zulpo说,“我们正在寻找这样的人才——不仅可以处理送来的单据,而且能够帮助我们获得最佳实践、策略和流程。”  Rafi Khan是健康和人力服务管理咨询公司Open Mind
近年来不仅是物流行业创业的高峰,在大家业务模式趋同的情况下,接下来网络货运平台又将出现怎样的趋势?未来,新业态下的网络货运平台会如何发展与监管?  《办法》的出台促使网络货运平台的承运责任由虚转实。系统化的管控将代替人工,在电子运单、信用、风控等方面,系统化的管控更容易推动标准的落地,并带来效率的提升。此外,基于监管体系的落实,为了达到税务要求和政府监管的需求,平台企业还需要提供全过程的透明化管理
在过去的五年中,马凯特大学的教职人员和管理人员就如何将教室搬到线上展开了许多次认真的讨论。马凯特大学多年来一直在提供一些在线学习机会,但是进展并不大。为此他们哀叹道,这一重大项目可能要花上数年时间才能够被大规模实施。  如今,疫情的迅速蔓延使得反对在线教学的声音一下就没有了。马凯特大学在一周之内就决定要将整个大学从以讲座为基础的面对面教学快速转变为虚拟教学。  马凯特大学的首位常驻创新者Chuck