数据预测分析技术成功案例:伦敦地铁

来源 :计算机世界 | 被引量 : 0次 | 上传用户:wanshilong111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  数据科学家正在分析列车和基础设施故障,以支持预测性维护.
  伦敦交通局(TfL,Transport for London)正在利用数据科学找出伦敦地铁列车和基础设施中断的原因,并预测这些故障什么时候会出现,从而提高服务质量。
  为帮助伦敦交通局实现“让伦敦跑起来”的宣传口号,所有列车、车站、信号、轨道和自动扶梯每天都要投入运营。其中任何一个出现小问题都有可能导致大的中断。
  为提高其可靠性并降低维护成本,一个由三个数据科学家组成的团队以及可靠性分析人员小组一直在研究故障原因,怎样减少故障。
  他们正在研究预测性维护怎样降低成本,改进服务。目前在中心线路上正在进行的一个项目分析地铁事件,以预测发动机什么时候会出现故障。
  伦敦交通局的数据科学家Akis Tsiotsios在一次人工智能大会上解释说:“预计每年能节约300万英镑,这极其重要,因为这类故障成本非常高,已经采取了很多计划维护措施,以防止发生故障。”
  老地铁继续运行
  1863年在帕丁顿(Paddington)和法灵顿街(Farringdon Street)之间开通了世界上的第一条地铁,现在它已成为环线、中心线、汉默史密斯线和城市线的一部分。
  它仍然是世界上最繁忙的地铁网络之一。每天早上,538趟列车运行在270个车站之间,预计该网络今年将运送14亿人次,覆盖8600万公里,相当于110次往返月球。
  需要定期维护维多利亚时代的基础设施和老化的车厢,以避免停运。
  大概一半的延误是由伦敦交通局资产问题引起的,其维护成本占总预算的59%。
  外部因素也会导致服务中断。在一个数据科学项目中,伦敦交通局通过找出故障与温度、湿度和降雨之间的关系,研究了天气条件怎样影响列车编组的可靠性。
  研究小组考虑了一个汇合了所有系统的失败概率模型,但决定应该有更强大的选项来确定单个子系统组件是否更容易出现故障。
  分析结果产生了热图,显示每一因素对每一系统和组件的影响。
  发现高温是导致故障的主要原因。低温也有显著的影响。
  研究人员将这些反馈给相关方,帮助他们围绕维护和更新做出决策。
  他们的最终目的是查明导致所有资产故障的原因,以便进行预防性维护。
  选择最佳数据分析模型
  为了了解故障的原因,研究小组研究了伦敦交通局资产、故障、维护、服务操作和天气等外部问题的数据集。故障发生的因素包括温度、出发地点、使用率和维修率。
  他们分析了每一因素对故障率的影响,基于故障发生频率的影响程度,以及与故障相关的成本。
  Tsiotsios说:“这样使我们能够大概了解不同因素的影响,对其进行对比以便知道应采取什么措施来进行缓解。”
  其难点包括信息孤岛、数据丢失、由于伦敦交通局不断更新其资产而导致时间受限,以及故障出现频率较低而使得数据比较稀疏,等等。
  伦敦交通局是非常依赖于安全关键应用的大企业,因此数据科学团队需要与不同的部门合作,实施有效的时间表。
  Tsiotsios说:“我们想让相关方尽可能的参与进来,因为这些项目每一个都涉及很多不同的部门,我们对工作人员的期望以及我们要努力实现的目标都有一些时间要求。”
  工作人员采取的维修决策应尽可能减少故障和维护成本。
  他们可以根据里程或者运行时间进行维护,但这可能最终会因为过度维护资产而浪费资金,也有可能因维护不足而导致出现太多的故障。
  数据科学家认为更好的选择是分析历史故障和维护数据,以确定故障概率。这样他们才能查明可能的原因。
  然后,他们可以评估故障成本,确定有多少是可以接受的,设置固定的维护频率。
  这种选择是一个进步,但仍然不是最佳的,因为有一些故障是不可避免的,而很多故障则可以通过维护来避免。
  Tsiotsios说:“我们要做的是,在某一资产即将出现故障之前,独立地维护每一项资产。
  “我们讨论的是预测性维护,这里的问题是当某一类系统要出现故障时,我们怎样才能预测出来。”
  伦敦交通局的预测性维护
  伦敦交通局通过分析已经收集的远程状态监测数据,进行预测性维护。
  伦敦交通局某些资产上的传感器不断监测基本状态,确认轨道上发生的事件。
  有成百上千的这类事件,从车门关闭到列车以一定速度经过等。
  例如,如果车门出现故障,那么故障出现前就会有相应的征兆。
  Tsiotsios说:“这里的想法是,出现故障之前的事件模式应该反映这些征兆。
  “换句话说,故障前的事件模式应该与正常或者健康运行的事件模式有明显的不同。”
  为了对所有这些数据进行建模,他们开发了一个机器学习分类器,可以区分这些不同的模式。
  然后,算法可以评估在前几天或者几小时内发生的事件的模式,然后预测是否会发生故障。
  机器学习模型被应用于数据,以预测是否会发生故障,预计将出现故障的资产很快就会出现在工程师的显示屏上。在出现故障之前,就会把有问题的资产从服务中撤出并进行维护。
  伦敦交通局的数据科学项目
  伦敦交通局正在进行一些数据分析实验以改进地铁服务,包括上述的中心线路项目。
  这使用了每天从制造商状态监控系统下载到服务器上的数据。然后算法评估过去五天里的事件模式,预测第二天是否会出现故障。
  他们还在维多利亚线路上进行了概念验证,通过异常检测来预测车门故障,还有一些其他项目来分析传感器产生的信号,持续监测性能。
  另一个数据科学项目则支持伦敦交通局开展监测并改进其数据质量的工作。
  很多伦敦交通局的数据都有错误,或者丢失了信息。数据科学小组正在使用自由文本字段,工程师利用这些字段输入关于故障征兆的详细信息,以及为解决问题所采取的行动,训练机器学习分类器,这些分类器分析文本中的模式以预测哪些组件会出现故障。
  到目前为止,该算法在识别组件时已被证明正确率达到75%。
  任何被标记的组件都会由专家进行检查。
  Tsiotsios说:“我們的目标不是建立一款自动为我们填充数据的机器学习工具。我们不想用一个也会出错的工具来代替我们工程师的专业知识。
  “我们想开发一款质量保证工具来监控数据质量,以便自动检测什么时候记录了错误的数据,并建立一个过程,在此过程中我们会向输入团队提供反馈,这样,将来会变得越来越好。”
其他文献
IDC称,全球数据到2025年将增长61%,达到175ZB,其中存储在云端上的数据将与储存在数据中心上的数据一样多。  IDC针对不断增长的数据发布了一份报告。该报告的研究结果与近期思科发布的研究报告一样令人震惊。IDC预测,全球数据总量到2025年将从今年的33ZB增长到175ZB,复合年增长率为61%。  175ZB这一预测数字比2017年IDC对该数据增长的预测增加了9%。由希捷赞助的IDC
安全信息共享已成为安全策略中最关键的因素之一,与此相对应的是企业的动态安全体系。那么维系动态安全体系的核心又是什么?答案是——可执行的(actionable)威胁情报。  如何让情报“可执行”  作为Fortinet首席安全战略官的Derek Manky,同时也是一位业界知名的网络安全专家,他的研究和意见曾被国际上许多相关机构采纳,并用于构造主动的网络安全的未来,对全球打击网络犯罪的战争产生了积极
首席信息官发现他们自己正处于一个独特的位置上,需要重新构建企业在当今数字时代的运营方式。本文介绍如何为业务流程的重塑和交付制订愿景。  一家英国公用事业公司遇到一个客户服务问题,即对账单提出质疑的客户必须经过一个繁琐的流程才能处理投诉。他们必须与公司联系以安排约见,以便工作人员上门重新读取电表,然后读数会被输入到公司系统中,并在随后生成新的发票。  从开始到完成,整个流程走完要花大约1个月的时间。
新冠病毒的爆发导致世界各地的员工被迫自我隔离,不得不试着在全球范围内远程开展工作。但是,一旦疫情造成的混乱结束,员工们会集体返回办公室吗?还是在家工作会成为新常态?  远程工作,一度被称为远程办公,在过去几十年里一直呈上升趋势,这要归功于数字通信和协作工具,使员工们不去办公室也能完成工作。近年来,这一趋势有所加速,这得益于一类以业务为中心的新型群聊应用程序,例如,Slack和更可靠、更方便用户的视
安全主管Ricardo González并没有将IT安全视为成本中心。相反,他将其描述为“一项可降低企业风险的战略投资,能够为实现业务价值做出积极贡献。”  在这方面,整个公司的高层都没有给予充分重视。不过,随着首席信息安全官及其安全团队开始逐渐成熟并成为了行政领导者,这一观点才开始流行。  作为国际保险巨头苏黎世保险集团西班牙分公司的运营风险与控制主管和业务弹性经理的González说,越来越多
移动领域的恶意软件?一些移动安全威胁更为紧迫。所有企业都应该关注来年出现的这些问题。  移动安全是当今所有企业最担心的问题——这是有充分理由的:几乎所有员工现在都习惯于从智能手机上访问企业数据,这意味着不让敏感信息落入坏人之手越来越难了。可以说,现在比以往任何时候都利害攸关:据Ponemon研究所2018年的报告,企业数据泄露的平均成本高达386万美元。这比一年前估计的成本高出6.4%。  虽然恶
新冠疫情造成了许多后果,后果之一是促使企业寻找创新的方法以利用技术,来支持在家办公策略、改进客户服务,及帮助对抗病毒本身。  机器人流程自动化(RPA)就是一个典型实例。该技术旨在加快处理数据输入等重复性任务,并提高准确性,为此使用机器人程序(bot)执行这些类型的任务。  Forrester的副总裁兼分析师Craig Le Clair表示,更多的企业在部署RPA平台,以帮助应对与疫情有关的挑战。
如何使用ITaaS(IT即服务)交付模型迅速实现IT转型。  绝大多数支持IT转型的云迁移项目都不会对能够带来哪些业务优势作出承诺。  在首席信息官办公室里决定下来的零散项目常常会与所有基本的业务战略脱节。有谁会天真地认为通过云计算降低IT成本并简化IT运营就足以帮助企业成为创新冠军,足以防止市场份额被侵蚀或是阻止客户流失呢?而这些都是企业在现实中所面临的挑战。  事实上,这些短期项目都有许多弱点
您不必在云中分配虚拟机,而是上传功能,让IaaS服务提供商知道怎样部署、运行和扩展这些功能  编译 charles  无服务器计算是一种颠覆性的应用程序开发方式,程序员不需要花很多的时间解决硬件规模问题,这种开发方式在事件驱动编程领域迅速得到了越来越多的应用。企业现在应该开始抓住这个机会,看看是否能帮助他们大幅降低成本,同时确保应用程序以最佳性能运行。  在过去十年中,软件团队已经远离直接管理数据
有迹象表明,类似AWS Lake Formation和Delta Lake等平台,都在朝着一个用于决策支持和AI驱动决策自动化的中央枢纽发展。  数据仓库是再次获得发展动力,还是会逐渐消亡呢?如果你对这个问题感到困惑也是情有可原的。一方面,数据仓库似乎仍处于热门阶段。作为一个长期的行业观察者,我发现这一行业在一连串成功的创新和创业活动中正迸发出新的活力。  这种趋势基本上始于十年前设备标准进入数据