如何选择云机器学习平台

来源 :计算机世界 | 被引量 : 0次 | 上传用户:hzq1989aa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读

  用戶需要大量的数据,对数据进行清洗,并在合理的时间内训练数据模型,这样才能创建高效的机器学习和深度学习模型。有了高效的机器学习和深度学习模型之后,用户需要部署和监视这些模型。如果发生了变化,用户还得根据需要重新对它们进行训练。
  对于那些已在计算资源和GPU等加速器上投入了巨资的用户,他们可以在本地执行所有这些操作,不过这些用户可能会发现,在资源足够的情况下,许多资源其实在很多时间都处于闲置状态。与此同时,用户可能还会发现,在云端运行整个管道可能成本效益更为出色,因为云服务可以根据实际需求调用大量的计算资源和加速器,在不需要的时候再把这些资源释放出来。
  目前,为了支持从项目规划到维护生产模型一整套完整的机器学习生命周期,多家主要的云提供商和众多小型云提供商都在构建自己的机器学习平台,并投入了大量精力。那么用户如何确定哪些云服务能够满足自己的需求呢?以下12种功能是所有云机器学习平台都应具备的功能。

控制成本


  用户需要控制模型的成本。通常情况下,在深度学习成本当中,生产预测模型的部署成本占了90%,训练仅占10%。用户的负载和模型的复杂性决定了预测成本的控制。
  如果负载很高,那么用户可以使用加速器来避免增加虚拟机实例。如果负载是波动的,那么用户可以根据负载的变化动态调整实例和容器的数量或规模。如果负载较低或者偶尔才有负载,那么用户则可以选择带有局部加速器的微型实例来处理预测工作。

支持在线建模环境


  以往的做法是用户将数据导到桌面上进行建模。如今,构建机器学习和深度学习模型需要大量的数据,这颠覆了用户以往的经验。对于探索性的数据分析和模型构建,用户只需将少量数据样本下载到桌面上即可,但是想要构建生产模型,用户仍需访问完整的数据。目前,适于构建模型的Web开发环境主要有Jupyter Notebooks、JupyterLab和Apache Zeppelin。如果数据与开发环境在相同的云服务上,那么用户可最大程度地减少数据移动,从而节约时间。

支持ETL或ELT管道


  数据库中最常见的两种数据管道配置是ETL(导出、转换和加载)和ELT(导出、加载和转换)。机器学习和深度学习放大了对这些环节的需求,尤其是转换环节。在用户的转型需要进行调整时,ELT可提供更高的灵活性,因为对于大数据而言加载环节是最耗时的。
  因此对于机器学习来说,用户还必须将变量控制在标准化范围之间,防止范围波动过大。至于用户到底将标准范围设置为多少,要取决于模型采用的算法。因为原始数据通常都掺杂着大量的无用数据,所以需要进行过滤。另外,原始数据的变化范围非常大,例如一个变量的最大值可能高达数百万,而另一个变量的范围可能是-0.1至-0.001之间。

更靠近数据


  因为数据传输速度不可能大于光速,距离过长就意味着等待时间过长。即使在具有无限带宽的完美网络上,情况也是如此。如果用户拥有的大量数据足以建立起精确模型,那么理想的状态是在存储数据的地方就近建立模型,这样可以避免传输大量数据。许多数据库也支持这种做法。
  其次是将数据与模型构建软件放在同一个高速网络上,这通常意味着数据和模型构建软件在同一数据中心内。即便是在同一个云可用区域内将数据从一个数据中心迁移到另一个数据中心,如果数据量过大也会出现严重的延迟。那么用户可能通过增量更新的方法来缓解延迟。如果用户不得不在带宽受限且存在高延迟的网络上长距离移动大数据,那么这将是最糟糕的情况。

支持AutoML和自动提取特征


  通常情况下,AutoML系统会尝试使用大量的模型,以查看哪些模型有最佳的目标函数值。优秀的AutoML系统还可以自动提取特征,并有效地利用资源寻找含有优秀特征集的最佳模型。因为并非所有的用户都擅长选择机器学习模型和模型所使用的变量,以及从原始观察中提取新的特征。即便用户擅长,他们也需要花费大量的时间,因此这些工作有必要实现自动化。

支持纵向和横向训练


  除训练模型外,Notebooks需要的计算和内存资源都不高。如果Notebooks能够执行在多个大型虚拟机或容器上运行的训练任务,并且如果训练可以使用GPU、TPU和FPGA等加速器,那将会带来许多好处。其中,最大的好处就是训练时间可以由数天时间缩短为数小时。
  支持最佳的机器学习和深度学习框架
  在机器学习和深度学习方面,大多数数据科学家都有自己偏爱的框架和编程语言。对于喜欢Python的人来说,他们在机器学习方面更偏爱Scikit-learn,而TensorFlow、PyTorch、Keras和MXNet通常是深度学习的首选。云机器学习和深度学习平台通常都有自己的算法集合,并且它们通常使用至少一种语言支持外部框架。部分云平台还针对一些主要的深度学习框架进行了修改。在某些情况下,用户还可以将自己的算法和统计方法与平台的AutoML设备集成在一起。

提供预训练的模型并支持迁移学习


  以ImageNet为例,其数据集不仅非常庞大,而且训练能够使用这些数据集的深度神经网络可能需要花上数周的时间。因此针对ImageNet数据集的预训练模型就变得意义重大。
  另外,并非所有人都愿意花费大量的时间和计算资源来训练自己的模型。如果可以使用预训练模型,用户就不必如此了。但预训练模型的不足之处在于其可能无法一直标识出用户关注的对象。在这种情况下,迁移学习可以帮助用户针对特定数据集定制神经网络的最后几层,不需要用户再花时间和资金训练整个网络。

支持模型部署预测


  在找到了适合自己的最佳模型后,用户还需要能够快捷地部署这些模型。如果用户出于相同目的部署了多个模型,那么用户则还需要再从中进行挑选。

监控用于预测的数据


  整个世界是不断变化的,数据也随着世界的变化而变化。用户不能部署完模型就甩手不管了。相反,用户需要不断监控那些出于预测目的而提交的数据。如果数据的变化远远超过了训练数据集的最初设定范围,那么用户则需要重新训练自己的模型。

提供经过优化的AI服务


  云平台不仅提供了图像识别功能,还为许多应用程序提供了强大的且经过优化了的AI服务,例如语言翻译、语音转文本、文本转语音、预测和推荐。为了确保良好的响应时间,目前这些经过优化的人工智能服务已经部署在了计算资源充足的服务端点上。这些服务已使用了大量数据进行了训练和测试,数据在数量上远远大于企业在正常情况下可用的数量。

对试验进行管理


  对所有的模式都尝试一遍是为数据集找到最佳模型的唯一方法,无论是手动的还是AutoML都要尝试一下。这时紧随而来的另外一个问题就是如何管理这些试验。优秀的云机器学习平台可帮助用户查看并比对训练集和测试数据试验的所有目标函数值,以及模型和混淆矩阵的大小。
  本文作者Martin Heller目前为InfoWorld网站的特约编辑兼评论员,此前曾担任Web和Windows编程顾问。从1986年至2010年,Heller一直从事数据库、软件和网站的开发工作。近期,Heller还出任了Alpha Software的技术兼训练副总裁和Tubifi的董事长兼首席执行官。
  原文网址
  https://www.infoworld.com/article/3568889/how-to-choose-a-cloud-machine-learning-platform.html
其他文献
Bentley 北亚区总裁刘德盛表示:数字孪生是实现基础设施数字化的第一公里,也是中国实现弯道超车的“特殊武器”。  在不断更迭的科学技术推动下,中国各行各业都呈现出高速发展的态势。特别是在基础设施方面,中国高铁、跨海大桥、机场建设、南水北调工程……当今的中国,世界级“超级工程”比比皆是,基础设施建设旧貌换新顏。  这些“巨无霸”工程,离不开的就是“智能建造”,BIM正是智能建造得以实现的数字化“
企业安全分为移动终端管理和桌面终端管理两个独立实体的时代即将结束。对此感到高兴的是基础设施和安全团队,因为他们将拥有具备强大机器学习功能的工具以及一个单一控制台。  传统上,移动和桌面基础设施的安全性取决于其所管理的内容,用户会针对移动设施和端点(无论是笔记本电脑还是台式机)购买产品。  尽管安全威胁正日益增长,特别是通过电子邮件、短信或超链接发起的网络钓鱼攻击,但是企业在移动安全方面花费的资金似
你是否正在考虑将数据分析和数据科学作为企业数字化转型的一部分?自动化的基础性方法和数据驱动文化可能是关键。  数据分析是一个不断发展的领域。跟上最新发展趋势对于确保企业在未来数月和数年成功部署分析战略和策略至关重要。对此,企业需要持续加大对分析的投资力度以支持数字化转型。  市场研究公司Market Research Future在今年2月预测,到2023年,全球数据分析市场将实现30.8%的复合
各行各业的企业组织都在力求更充分地利用数据,医疗保健行业尤其如此。医疗服务机构充分利用可获取的大量数据,借助分析技术改善患者治疗效果、简化业务运营并削减成本。  甚至早在新冠疫情成为全球现象之前,研究公司Acumen Research and Consulting就预测,到2026年,全球医疗分析技术市场的规模将增长到522亿美元。分析技术帮助医疗机构确定和消除工作流程瓶颈,为运营领导人提供预测性
我们在安全产品宣传中听到的许多关于人工智能和机器学习的内容大部分都是为了营销,外人很难从中知道这些工具的真实能力。以下我们将为大家详细介绍一下目前安全领域中人工智能和机器学习的状态。  让我们从破除最常见的误解开始:企业安全软件中几乎没有整合真正的人工智能(AI)。事实上,人工智能这个术语经常被提及的原因在大程度上与营销有关,反而跟技术本身没有什么关系。纯粹的人工智能主要是复制认知能力。  也就是
要记住:无服务器计算的设计初衷是要实现基础架构配置自动化并消除服务器管理的负担。  你的企业是否已经为迎接无服务器的到来做好了准备?无服务器计算如今正在迅猛发展,但是这并不意味着它们适用于所有的场景或企业。  无服务器计算是一种软件架构模型,即云计算服务提供商为客户运行服务器并动态管理计算资源的分配。“无服务器”这个术语是一个误称,因为在某种意义上,服务器仍然参与到计算过程中。这种类型服务的价格是
近几年,银行在面对数据中心大幅提升的数据量,以及要求越来越严格的数据管理、安全标准的情况之下,提升自身运维管理能力,提高数据中心运维效能就显得刻不容缓。但是,目前市场上大多数基础设施运维管理平台对其他品牌产品的兼容性比较差,如果需要实现全平台、全品牌的兼容管理就需要采用自主研发的手段来实现。  近日,民生银行科技部系统管理中心硬件运维主管毕伟光介绍了近几年民生银行在数据中心建设、运维管理,以及民生
虽然物联网技术在医学领域中的应用充满了复杂性,但是用户仍在努力尝试。  政府法规、安全性和技术整合都是物联网在医学领域所面临的严重问题,不过该领域的专家表示,尽管遇到了一些障碍,但是医疗物联网仍在努力向前发展。  供应商:很难获得认可  Adheretech是一家医疗物联网初创公司,其主要产品是物联网药瓶。该公司的联合创始人兼首席执行官Josh Stein称,他们的产品可以监测重症患者是否服用了正
数字化转型是企业更好地为客户提供价值而进行变革的基础。本文介绍转型实际会涉及哪些工作,并给出一些确保企业走上正确道路的建议。  首席信息官们开始鄙视数字化转型这一概念了,因为它被过度使用而导致其含义变得模糊不清。  你可以责怪那些把它当作现代化托词的首席信息官们,所谓现代化包括从老的本地系统迁移到云软件,或者责怪那些在推销解决方案时滥用了这个术语以满足每一IT领导要求的供应商。  但精明的首席信息
事后诸葛亮谁都会当,要是企业在往无法获得预期投资回报(ROI)的项目投入过多的资金、时间和精力之前就知道何时止损,那就好了。  这是总部位于多伦多的房地产服务和投资管理公司高力国际(Collier International)汲取的教训。该公司的全球IT副总裁Mihai Strusievici表示,全球IT部门不是基于传统的需求收集和早期评估来开展新项目,而是从短小的迭代开发周期开始入手,这种迭代