论文部分内容阅读
[摘 要]目前铁路各个工种部门信息化建设呈现的是分散化,相互独立的信息化节点,例如利用物联网和前端探测手段实现的自动化管理但是没有系统的数据分析和数据挖掘,所以目前铁路行业的大数据网络并不全面,更多的只是简单的数据搜集。从管理角度来说应为各个专业的相对独立对大数据网络的建设投资和管理相对不太容易。但此文仅从技术层面对铁路行业信息化进行设想和展望。
[关键词]大数据挖掘分析;铁路通信;应用分析
中图分类号:S62 文献标识码:A 文章编号:1009-914X(2019)02-0325-01
一、大数据概要
大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据技术,是指从各种各样类型的数据中,快速获得有价值信息的能力。适用于大数据的技术,包括大规模并行处理(MPP)数据库,数据挖掘电网,分布式文件系统,分布式数据库,云计算平台,互联网,和可扩展的存储系统。
二、数据网建设
1. 大数据处理之一:采集
大数据的采集是指利用多个数据库来接收发自客户端(Web、App或者传感器形式等)的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。通信,信号,供电,工务等专业在信息采集方向也同样做了很多采集系统例如通信的端口数据采集,供电的相关技术指标的采集以及信号相应的数据采集系统。数据采集可以从设计开始通过广泛的布置信息采集器涉及管理部门报表中的主要技术指标。
2. 大数据处理之二:导入/预处理
虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使用来自Twitter的Storm来对数据进行流式计算,来满足部分业务的实时计算需求。
3. 大数据处理之三:统计/分析
统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求,在这方面,一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop。
4. 大数据处理之四:挖掘
与前面统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测(Predict)的效果,从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的Kmeans、用于统计学习的SVM和用于分类的NaiveBayes,主要使用的工具有Hadoop的Mahout等 整个大数据处理的普遍流程至少应该满足这四个方面的步骤,才能算得上是一个比较完整的大数据处理。通过数据的分析和调取可以根据数据的发生规律和发展变化提取重要的数据逻辑,例如通信专业网络故障和网络流量高峰的发生规律为通信专业的网络维护和建设提供重要的数据支持。车辆,供电,客票,货票等均可以通过类似的关键数据发掘来对未来专业的建设提供理论数据依据。
三、铁路大数据建设的几个主要问题
总体来说铁路的基础网络建设较为完整但是各个数据接口的访问并不通用,不同专业的网络建设思路不同,不同厂家的接口协议不开放,等问题均在网络建设的基础层面便限制了大数据网络的发展。通常解决方案有两部分,既有的网络或检测仪器基本具备网络管理和数据分析功能,如何解决既有的各个系统的跨厂商和跨专业的调用及其关键,通信专业近几年发展的综合网管便是一个解决思路。但是综合网管仅仅是解决了网管共用的问题却没有真正的实现数据分享。这也是综合网管向综合网络发展需要解决的商业技术壁垒。另一个问题是跨专业的网络建设,目前铁路各个专业网络建设基本遵循通信专业维护通道信号及其他专业维护客户端的运行模式。从长远来看形成综合的维护运行单位,通信专业可以着重进行网络一体化及数据共享化的建设。从而解决专业行政壁垒导致的发展瓶颈。目前多个路局例如成都,武汉,沈阳,广铁等多个路局所成立的工电段基本是综合维护单位的雏形。相信未来铁路网络维护向着综合化,扁平化的发展方向进行改革发展。
从大数据的技术层面分析铁路大数据网络的建设存在以下几个问题:
(1)容量問题
这里所说的“大容量”通常可达到PB级的数据规模,因此,海量数据存储系统也一定要有相应等级的扩展能力。与此同时,存储系统的扩展一定要简便,可以通过增加模块或磁盘柜来增加容量,甚至不需要停机。
(2)延迟问题
“大数据”应用还存在实时性的问题。特别是涉及到与网上交易或者金融类相关的应用。这就要求存储系统在必须能够支持上述特性同时保持较高的响应速度,因为响应延迟的结果是系统会推送“过期”的广告内容给客户。
(3)安全问题
在铁路这个特殊行业的应用,有自己的安全标准和保密性需求。虽然对于IT管理者来说这些并没有什么不同,而且都是必须遵从的,但是,大数据分析往往需要多类数据相互参考,而在过去并不会有这种数据混合访问的情况,因此大数据应用也催生出一些新的、需要考虑的安全性问题。
(4)成本问题
“大”,也可能意味着代价不菲。而对于那些正在使用大数据环境的企业来说,成本控制是关键的问题。想控制成本,就意味着我们要让每一台设备都实现更高的“效率”,同时还要减少那些昂贵的部件。目前,像重复数据删除等技术已经进入到主存储市场,而且现在还可以处理更多的数据类型,这都可以为大数据存储应用带来更多的价值,提升存储效率。在数据量不断增长的环境中,通过减少后端存储的消耗,哪怕只是降低几个百分点,都能够获得明显的投资回报。此外,自动精简配置、快照和克隆技术的使用也可以提升存储的效率。
(5)数据的积累
许多大数据应用都会涉及到法规遵从问题,这些法规通常要求数据要保存几年或者几十年。而有些使用大数据存储的用户却希望数据能够保存更长的时间,因为任何数据都是历史记录的一部分,而且数据的分析大都是基于时间段进行的。要实现长期的数据保存,就要求存储厂商开发出能够持续进行数据一致性检测的功能以及其他保证长期高可用的特性。同时还要实现数据直接在原位更新的功能需求。
(6)灵活性
大数据存储系统的基础设施规模通常都很大,因此必须经过仔细设计,才能保证存储系统的灵活性,使其能够随着应用分析软件一起扩容及扩展。在大数据存储环境中,已经没有必要再做数据迁移了,因为数据会同时保存在多个部署站点。一个大型的数据存储基础设施一旦开始投入使用,就很难再调整了,因此它必须能够适应各种不同的应用类型和数据场景。
应用感知
最早一批使用大数据的用户已经开发出了一些针对应用的定制的基础设施,比如针对政府项目开发的系统,还有大型互联网服务商创造的专用服务器等。在主流存储系统领域,应用感知技术的使用越来越普遍,它也是改善系统效率和性能的重要手段,所以,应用感知技术也应该用在大数据存储环境里。
四、结论
随着科学的进步和发展大数据的应用于发展已经体现了其巨大的社会效益和经济效益,同样铁路行业也应该注重网络化信息化建设的步伐。大数据在铁路领域的应用不仅仅是服务于铁路行业的维护和管理,从更广泛的角度来说可以为国家公共交通运输及经济决策提供可靠地数据保障。同样大数据的分析和挖掘工作也有利于使铁路建设维护更加高效集约。提高铁路的运行效率和降低建设运行成本。
[关键词]大数据挖掘分析;铁路通信;应用分析
中图分类号:S62 文献标识码:A 文章编号:1009-914X(2019)02-0325-01
一、大数据概要
大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据技术,是指从各种各样类型的数据中,快速获得有价值信息的能力。适用于大数据的技术,包括大规模并行处理(MPP)数据库,数据挖掘电网,分布式文件系统,分布式数据库,云计算平台,互联网,和可扩展的存储系统。
二、数据网建设
1. 大数据处理之一:采集
大数据的采集是指利用多个数据库来接收发自客户端(Web、App或者传感器形式等)的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。通信,信号,供电,工务等专业在信息采集方向也同样做了很多采集系统例如通信的端口数据采集,供电的相关技术指标的采集以及信号相应的数据采集系统。数据采集可以从设计开始通过广泛的布置信息采集器涉及管理部门报表中的主要技术指标。
2. 大数据处理之二:导入/预处理
虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使用来自Twitter的Storm来对数据进行流式计算,来满足部分业务的实时计算需求。
3. 大数据处理之三:统计/分析
统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求,在这方面,一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop。
4. 大数据处理之四:挖掘
与前面统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测(Predict)的效果,从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的Kmeans、用于统计学习的SVM和用于分类的NaiveBayes,主要使用的工具有Hadoop的Mahout等 整个大数据处理的普遍流程至少应该满足这四个方面的步骤,才能算得上是一个比较完整的大数据处理。通过数据的分析和调取可以根据数据的发生规律和发展变化提取重要的数据逻辑,例如通信专业网络故障和网络流量高峰的发生规律为通信专业的网络维护和建设提供重要的数据支持。车辆,供电,客票,货票等均可以通过类似的关键数据发掘来对未来专业的建设提供理论数据依据。
三、铁路大数据建设的几个主要问题
总体来说铁路的基础网络建设较为完整但是各个数据接口的访问并不通用,不同专业的网络建设思路不同,不同厂家的接口协议不开放,等问题均在网络建设的基础层面便限制了大数据网络的发展。通常解决方案有两部分,既有的网络或检测仪器基本具备网络管理和数据分析功能,如何解决既有的各个系统的跨厂商和跨专业的调用及其关键,通信专业近几年发展的综合网管便是一个解决思路。但是综合网管仅仅是解决了网管共用的问题却没有真正的实现数据分享。这也是综合网管向综合网络发展需要解决的商业技术壁垒。另一个问题是跨专业的网络建设,目前铁路各个专业网络建设基本遵循通信专业维护通道信号及其他专业维护客户端的运行模式。从长远来看形成综合的维护运行单位,通信专业可以着重进行网络一体化及数据共享化的建设。从而解决专业行政壁垒导致的发展瓶颈。目前多个路局例如成都,武汉,沈阳,广铁等多个路局所成立的工电段基本是综合维护单位的雏形。相信未来铁路网络维护向着综合化,扁平化的发展方向进行改革发展。
从大数据的技术层面分析铁路大数据网络的建设存在以下几个问题:
(1)容量問题
这里所说的“大容量”通常可达到PB级的数据规模,因此,海量数据存储系统也一定要有相应等级的扩展能力。与此同时,存储系统的扩展一定要简便,可以通过增加模块或磁盘柜来增加容量,甚至不需要停机。
(2)延迟问题
“大数据”应用还存在实时性的问题。特别是涉及到与网上交易或者金融类相关的应用。这就要求存储系统在必须能够支持上述特性同时保持较高的响应速度,因为响应延迟的结果是系统会推送“过期”的广告内容给客户。
(3)安全问题
在铁路这个特殊行业的应用,有自己的安全标准和保密性需求。虽然对于IT管理者来说这些并没有什么不同,而且都是必须遵从的,但是,大数据分析往往需要多类数据相互参考,而在过去并不会有这种数据混合访问的情况,因此大数据应用也催生出一些新的、需要考虑的安全性问题。
(4)成本问题
“大”,也可能意味着代价不菲。而对于那些正在使用大数据环境的企业来说,成本控制是关键的问题。想控制成本,就意味着我们要让每一台设备都实现更高的“效率”,同时还要减少那些昂贵的部件。目前,像重复数据删除等技术已经进入到主存储市场,而且现在还可以处理更多的数据类型,这都可以为大数据存储应用带来更多的价值,提升存储效率。在数据量不断增长的环境中,通过减少后端存储的消耗,哪怕只是降低几个百分点,都能够获得明显的投资回报。此外,自动精简配置、快照和克隆技术的使用也可以提升存储的效率。
(5)数据的积累
许多大数据应用都会涉及到法规遵从问题,这些法规通常要求数据要保存几年或者几十年。而有些使用大数据存储的用户却希望数据能够保存更长的时间,因为任何数据都是历史记录的一部分,而且数据的分析大都是基于时间段进行的。要实现长期的数据保存,就要求存储厂商开发出能够持续进行数据一致性检测的功能以及其他保证长期高可用的特性。同时还要实现数据直接在原位更新的功能需求。
(6)灵活性
大数据存储系统的基础设施规模通常都很大,因此必须经过仔细设计,才能保证存储系统的灵活性,使其能够随着应用分析软件一起扩容及扩展。在大数据存储环境中,已经没有必要再做数据迁移了,因为数据会同时保存在多个部署站点。一个大型的数据存储基础设施一旦开始投入使用,就很难再调整了,因此它必须能够适应各种不同的应用类型和数据场景。
应用感知
最早一批使用大数据的用户已经开发出了一些针对应用的定制的基础设施,比如针对政府项目开发的系统,还有大型互联网服务商创造的专用服务器等。在主流存储系统领域,应用感知技术的使用越来越普遍,它也是改善系统效率和性能的重要手段,所以,应用感知技术也应该用在大数据存储环境里。
四、结论
随着科学的进步和发展大数据的应用于发展已经体现了其巨大的社会效益和经济效益,同样铁路行业也应该注重网络化信息化建设的步伐。大数据在铁路领域的应用不仅仅是服务于铁路行业的维护和管理,从更广泛的角度来说可以为国家公共交通运输及经济决策提供可靠地数据保障。同样大数据的分析和挖掘工作也有利于使铁路建设维护更加高效集约。提高铁路的运行效率和降低建设运行成本。