论文部分内容阅读
摘 要:针对湖南省草公司及所属邵阳市公司已建成信息资源集成云管理系统,实现了省市两级联动的全局性计算资源池,但传统的运维技术难以满足云计算、大数据平台运维要求。基于大量非结构化数据的数据技术,设计基于云平台的大数据智能运维系统,智能、实时采集主机、服务器、网络、应用、日志等相关数据,运用大数据处理技术,对全省云管理系统的基础资源分析,提升基础设备与系统日常运维能力。我建立适应云计算、大数据信息化平台的统一运维、统一资源管理提供了一个设想,为行业的信息化投资提供了可靠数据支撑,最终为保障湖南烟草的各业务系统的运行提出了新的运维管理思想和系统。
关键词:信息资源 大数据 数据分析 运维模型 智能运维
一、引言
湖南省烟草公司及所属邵阳市公司于2013年建立大型企业信息资源集成云管理平台,通过对小型机、PC服务器、存储等设备进行全面虚拟化,在省局建立了统一的企业共享计算资源池,并初步实现了省市联动的全局性计算资源池。但随着硬件资源的增多,IT运维方面也出现了一些相关的问题,当系统出现故障时,维护人员缺少可视化的故障分析数据和报告,导致系统恢复时间较长,对生产造成较大影响;特别是出现多处故障时,由于缺乏有效的定位和分析手段,仅凭经验进行排查,导致恢复正常运行的时间长。总的来说,目前的IT运维人员多是被动、救火式的运维,缺乏主动预警防护的手段。根据省局的按照全省系统信息资源管理需求以及企业大数据中心建设要求,在现有云管理平台的基础上,探索利用大数据技术,建立企业大数据中心平台,并从技术和业务等多个维度,发现企业大数据所在的位置、形态和特征,研究企业大数据的采集、存储、处理与利用机制,为企业提供发现有价值信息的手段和工具,提供更精确的决策依据;在技术大数据方面,提出了通过平台运行大数据采集与分析来实时监控整个平台的运行状况,能够有效、准确、及时地对主机、虚拟机、存储、应用系统的健康状况进行评估,为系统优化、故障发现提供有效的信息,为资源扩展提供决策辅助,促进业务创新,有效提升企业核心竞争力。
二、技术原理
和传统运维相比,大数据智能运维在数据量、处理速度、涉及业务广度、模式发现等方面都有重大的差异。在大数据时代下的智能运维,推动运维从自动化向智能化进化,其目标是提高系统的可靠性,尽可能低的成本、提供足够好的服务质量和用户体验。网络带宽、服务器、维护人力等是云计算平台的主要成本来源。通过对运维大数据分析,实现对硬件故障的预测和自动化管理,对机器的管理实现了零投入;通过智能混部技术,动态感知、实时分析、全局调度,合理分配计算、存储、内存等不同类型的任务,精细化分析、“消峰填谷”的方式来最大化地利用资源,减低预算开销。湖南烟草云计算应用平台上硬件资源的调配需要大量服务器运行资料的支撑,大数据智能运维就是利用大数据技术,定义好各种运维指标,高频率的监控每台服务器的运行数据,并统一收集日志,借助mongoDB等非关系型数据库保存多样性数据,与此同时,所有数据写入Hadoop集群,利用大数据技术对收集的数据做更多维度的离线分析,形成各种曲线图,和之前定义的指标对比,并与监控报警系统关联起来,实现对整个数据中心的性能和可用性的监控和趋势分析。然后根据历史数据和算法形成的预测模型,预测未来服务器的运行状况和瓶颈,帮助运维人员提前迁移系统和调整硬件资源。
三、部署架构
大数据智能运维系统最基本的部署需部件分别是Hadoop集群,MongoDB集群,采集器集群,MySQL数据库和大数据应用五个部分。
Hadoop集群、MongoDB集群和采集器集群,一旦集群中的某个节点故障,系统能够自动的将该节点的任务分发到其他正常的节点继续运行,保证系统数据的完整性。Hadoop的Master节点主要提供NameNode、SecondaryNameNode及JobTracker三种服务,主要用于任务调度和管理文件系统的命名空间以及客户端对文件的访问。Slave节点部署一个DataNode和TaskTracker,以便 这个Slave服务器运行的数据处理程序能尽可能直接处理本机的数据。MongoDB集群采用的是副本模式,一旦主节点故障,副本节点通过竞选机制,选举出一个副本节点作为主节点,从而保证整个数据存储的稳定性。采集器集群所有的节点都是同一地位,分别执行不同的采集任务,如果某个采集节点停止运行,控制中心会立即监测并确认后,把其采集任务分配到其他采集器上,确保数据的连续和一致性。
四、效益分析
基于云計算和大数据的智能运维实现以后,预计将产生巨大的管理效益、经济效益与社会效益。
第一,建立统一管理体制,实现一个平台对多系统监控和管理,让领导放心、业务人员省心、客户放心。通过统一的数据呈现和监控管理平台,实现各资源子系统的统一管控,对整个基础资源平台里的各类主机硬件,存储硬件,网络硬件、以及不同的虚拟化软件,实现统一监控和管理,实现IT运维的统一化,标准化,流程化和智能化,简化了IT运维人员的操作,降低了各类业务系统的维护难度,提高了用户体验,减轻了系统管理员的维护工作量,能放大省局云平台各类业务应用集中部署的优势,使领导满意度、业务人员满意度、客户满意度得到提高,为湖南烟草未来资源和应用扩展奠定管理基础,建立降本增效、绿色节能的新型IT运维管理模式。第二,建立IT管理体系,提升了信息化工程项目交付能力,形成开发、整合、管理三位一体的配套支撑环境。大数据智能运维不仅仅是信息系统的构建和集成,同时更是打通了IT应用资源管理的壁垒,包括对现有系统、设计资源、开发资源、团队等与IT系统建设有重要关系的对象的监管、治理。提供了更为健康的IT整合工程化支撑环境、快速开发业务应用的工具与支撑平台,以及项目过程管理及质量控制环境,从工程建设角度提供了项目开发、整合、管理三位一体的配套支撑环境,保障和提升了大型软件工程项目成功交付能力。第三,提供科学决策依据,支撑烟草商业企业的业务、运营和管理,提升企业整体运营水平。通过高效的分析展现工具对实时的资源运行状况和和资源利用率进行辅助决策分析,为领导决策提供有力的数据支持,支撑烟草商业企业的业务、运营和管理,并提高企业效率,对企业经营目标的实现、经济指标的提升产生了重大效益。总的来说,基于云计算和大数据的智能运维能够为在所有部署在湖南烟草云平台上的业务应用提供一个稳定的运行环境,符合烟草行业十三五规划提出的“整合兼容、互联互通、先进实用、改造升级”的要求,保障了业务的正常运行,提高了企业生产效率,有效的支撑了省局领导针对信息化工作提出的“用信息化带动管理规范化、业务流程程序化、决策科学化”的要求。
五、结语
基于云计算和大数据的智能运维将为湖南烟草商业所有业务应用提供一个稳定的运行平台,保障业务的正常运行,提高企业生产效率,有效的支撑局领导针对信息化工作提出的“用信息化带动管理规范化、业务流程程序化、决策科学化”的要求。同时我们相信,随着时间的推移,基于云计算和大数据的智能运维在湖南烟草商业系统改革发展的进程中会起到越来越重要的支撑作用,并取得更大的经济效益和社会效益。
参考文献:
[1]章思宇 孙强 姜开达 自动化运维中的大数据分析 《中国网络教育》 2015年7期.
[2]陈艺高 动环大数据,提升运维效能 《通信电源技术》 2014年31期.
[3]钟湘琼 基于云计算的大数据智能运维系统设计 《信息通信》 2016年2期.
关键词:信息资源 大数据 数据分析 运维模型 智能运维
一、引言
湖南省烟草公司及所属邵阳市公司于2013年建立大型企业信息资源集成云管理平台,通过对小型机、PC服务器、存储等设备进行全面虚拟化,在省局建立了统一的企业共享计算资源池,并初步实现了省市联动的全局性计算资源池。但随着硬件资源的增多,IT运维方面也出现了一些相关的问题,当系统出现故障时,维护人员缺少可视化的故障分析数据和报告,导致系统恢复时间较长,对生产造成较大影响;特别是出现多处故障时,由于缺乏有效的定位和分析手段,仅凭经验进行排查,导致恢复正常运行的时间长。总的来说,目前的IT运维人员多是被动、救火式的运维,缺乏主动预警防护的手段。根据省局的按照全省系统信息资源管理需求以及企业大数据中心建设要求,在现有云管理平台的基础上,探索利用大数据技术,建立企业大数据中心平台,并从技术和业务等多个维度,发现企业大数据所在的位置、形态和特征,研究企业大数据的采集、存储、处理与利用机制,为企业提供发现有价值信息的手段和工具,提供更精确的决策依据;在技术大数据方面,提出了通过平台运行大数据采集与分析来实时监控整个平台的运行状况,能够有效、准确、及时地对主机、虚拟机、存储、应用系统的健康状况进行评估,为系统优化、故障发现提供有效的信息,为资源扩展提供决策辅助,促进业务创新,有效提升企业核心竞争力。
二、技术原理
和传统运维相比,大数据智能运维在数据量、处理速度、涉及业务广度、模式发现等方面都有重大的差异。在大数据时代下的智能运维,推动运维从自动化向智能化进化,其目标是提高系统的可靠性,尽可能低的成本、提供足够好的服务质量和用户体验。网络带宽、服务器、维护人力等是云计算平台的主要成本来源。通过对运维大数据分析,实现对硬件故障的预测和自动化管理,对机器的管理实现了零投入;通过智能混部技术,动态感知、实时分析、全局调度,合理分配计算、存储、内存等不同类型的任务,精细化分析、“消峰填谷”的方式来最大化地利用资源,减低预算开销。湖南烟草云计算应用平台上硬件资源的调配需要大量服务器运行资料的支撑,大数据智能运维就是利用大数据技术,定义好各种运维指标,高频率的监控每台服务器的运行数据,并统一收集日志,借助mongoDB等非关系型数据库保存多样性数据,与此同时,所有数据写入Hadoop集群,利用大数据技术对收集的数据做更多维度的离线分析,形成各种曲线图,和之前定义的指标对比,并与监控报警系统关联起来,实现对整个数据中心的性能和可用性的监控和趋势分析。然后根据历史数据和算法形成的预测模型,预测未来服务器的运行状况和瓶颈,帮助运维人员提前迁移系统和调整硬件资源。
三、部署架构
大数据智能运维系统最基本的部署需部件分别是Hadoop集群,MongoDB集群,采集器集群,MySQL数据库和大数据应用五个部分。
Hadoop集群、MongoDB集群和采集器集群,一旦集群中的某个节点故障,系统能够自动的将该节点的任务分发到其他正常的节点继续运行,保证系统数据的完整性。Hadoop的Master节点主要提供NameNode、SecondaryNameNode及JobTracker三种服务,主要用于任务调度和管理文件系统的命名空间以及客户端对文件的访问。Slave节点部署一个DataNode和TaskTracker,以便 这个Slave服务器运行的数据处理程序能尽可能直接处理本机的数据。MongoDB集群采用的是副本模式,一旦主节点故障,副本节点通过竞选机制,选举出一个副本节点作为主节点,从而保证整个数据存储的稳定性。采集器集群所有的节点都是同一地位,分别执行不同的采集任务,如果某个采集节点停止运行,控制中心会立即监测并确认后,把其采集任务分配到其他采集器上,确保数据的连续和一致性。
四、效益分析
基于云計算和大数据的智能运维实现以后,预计将产生巨大的管理效益、经济效益与社会效益。
第一,建立统一管理体制,实现一个平台对多系统监控和管理,让领导放心、业务人员省心、客户放心。通过统一的数据呈现和监控管理平台,实现各资源子系统的统一管控,对整个基础资源平台里的各类主机硬件,存储硬件,网络硬件、以及不同的虚拟化软件,实现统一监控和管理,实现IT运维的统一化,标准化,流程化和智能化,简化了IT运维人员的操作,降低了各类业务系统的维护难度,提高了用户体验,减轻了系统管理员的维护工作量,能放大省局云平台各类业务应用集中部署的优势,使领导满意度、业务人员满意度、客户满意度得到提高,为湖南烟草未来资源和应用扩展奠定管理基础,建立降本增效、绿色节能的新型IT运维管理模式。第二,建立IT管理体系,提升了信息化工程项目交付能力,形成开发、整合、管理三位一体的配套支撑环境。大数据智能运维不仅仅是信息系统的构建和集成,同时更是打通了IT应用资源管理的壁垒,包括对现有系统、设计资源、开发资源、团队等与IT系统建设有重要关系的对象的监管、治理。提供了更为健康的IT整合工程化支撑环境、快速开发业务应用的工具与支撑平台,以及项目过程管理及质量控制环境,从工程建设角度提供了项目开发、整合、管理三位一体的配套支撑环境,保障和提升了大型软件工程项目成功交付能力。第三,提供科学决策依据,支撑烟草商业企业的业务、运营和管理,提升企业整体运营水平。通过高效的分析展现工具对实时的资源运行状况和和资源利用率进行辅助决策分析,为领导决策提供有力的数据支持,支撑烟草商业企业的业务、运营和管理,并提高企业效率,对企业经营目标的实现、经济指标的提升产生了重大效益。总的来说,基于云计算和大数据的智能运维能够为在所有部署在湖南烟草云平台上的业务应用提供一个稳定的运行环境,符合烟草行业十三五规划提出的“整合兼容、互联互通、先进实用、改造升级”的要求,保障了业务的正常运行,提高了企业生产效率,有效的支撑了省局领导针对信息化工作提出的“用信息化带动管理规范化、业务流程程序化、决策科学化”的要求。
五、结语
基于云计算和大数据的智能运维将为湖南烟草商业所有业务应用提供一个稳定的运行平台,保障业务的正常运行,提高企业生产效率,有效的支撑局领导针对信息化工作提出的“用信息化带动管理规范化、业务流程程序化、决策科学化”的要求。同时我们相信,随着时间的推移,基于云计算和大数据的智能运维在湖南烟草商业系统改革发展的进程中会起到越来越重要的支撑作用,并取得更大的经济效益和社会效益。
参考文献:
[1]章思宇 孙强 姜开达 自动化运维中的大数据分析 《中国网络教育》 2015年7期.
[2]陈艺高 动环大数据,提升运维效能 《通信电源技术》 2014年31期.
[3]钟湘琼 基于云计算的大数据智能运维系统设计 《信息通信》 2016年2期.