浅谈大数据时代下分布式集群运维和故障处理策略

来源 :科学导报·科学工程与电力 | 被引量 : 0次 | 上传用户:w7622420
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘  要】随着社会的不断发展以及科学技术水平的不断发展,信息化技术不断提升,大数据、云计算技术越来越普及,分布式集群在当今信息系统中的利用越来越多。在分布式集群的运维过程中,由于相关人员的专业素质以及技术水平参差不齐,导致分布式集群在运维的过程中会产生一定的问题,影响运维效率。本文在此基础上就分布式集群运维和故障处理策略进行了简要的分析。
  【关键词】大数据,分布式集群;计算机硬件;运维;故障处理
  1引言
  随着社会进步和信息技术的发展,数据量越来越大,普通的信息系统已经不能满足需要,分布式集群越来越普遍。因此,必须掌握分布式集群故障诊断和排除能力,做好分布式集群日常维护,为信息系统创造高效安全的运行环境。分布式集群故障主要有硬件故障和软件故障等,遇到这些故障时要按照从外到内、由简单到复杂的原则进行诊断,不同故障采取不同的处理方法,本文主要讨论硬件设备故障。
  2计算机硬件常见故障
  2.1自动重启
  计算机自动重启是非常常见的一种故障,但是这种故障却会带来很多困扰,大数据时代对于分布式集群故障的产生与维护都是利弊均有的,一方面,硬件设备越多,硬件发生故障的概率越大,另一方面,由于分布式集群一般采用高可用的不是方式,硬件设备的故障一般不会影响信息系统的正常运行。下面对硬件服务器故障进行具体分析:(1)内存问题:服务器的内存一般为ROM和RAM,当内存条上某些细小芯片不完全损坏的时候,服务器运维监控软件可能检测不到。大数据时代数据量剧增,在虚拟化服务器物理内存本就不足的情况下,很容易导致在主板过热现象,而导致内存损坏,以及大量虚拟机卡顿或设备重启。在集群长期运行的情况下,若接触不良,内存条插槽有灰尘进入,都会导致虚拟化服务器的功能不完整。(2)CPU问题:CPU作为服务器的核心部件,在大数据时代CPU的作用更加重要,数据的计算离不开它,当CPU电路部分功能被损坏时,虽然集群的高可用功能可以保障整个信息系统不会出问题,但是当服务器访问频繁,业务量较多的时候,一台服务器的CPU发生故障会导致集群其他设备的业务压力更大。又或者因为业务高峰期,服务器过热,机房内温控系统发生故障时,出于自我保护的原因,CPU因温度过高而使服务器关机保护。(3)主板问题以及其他问题:在日常运维中,分布式集群在工作时因主板的问题导致关机的情况也并不少见,当服务器主板使用时间过长,或集群运行环境不符合要求,会使主板加速老化,从而致使主板不能够正常运行,发生意外重启。另有系统盘故障、网络故障、恶意入侵、运行环境意外事件导致服务器故障,发生重启。
  2.2蓝屏故障或显示故障
  与个人计算机蓝屏问题类似,集群运行中蓝屏也是经常困扰运维人员的故障,这是显示器一般会显示一些代码,例如:0X0000007B,0X00000050,0X0000007E和0X0000008E,这些代码都是对用户的提示,比如出现0X0000007B就可能是硬盘导致的计算机蓝屏,硬盘可能由于设置问题或者遭受病毒侵入而导致硬盘引导分区错误,出现这种问题后如果能判断出是病毒原因导致的蓝屏,就可以在开启时按F8键(不同品牌的操作请参照用户手册),引入配置恢复的界面,如果配置无法正常恢复就可以选择重装系统的方式来解决。出现0X0000007E和0X0000008E可能是由于CPU的损坏导致的蓝屏。出现0X00000050可能是内存芯片的问题。
  2.3宕机
  第一,服务器散热性能不佳。集群运行会产生热量,运行时间越长散发热量越多,一旦各个部分安装的风扇出现问题,某部分有大量灰尘,运行环境通风效果差,硬件就会出现问题,频繁死機无法避免。第二,CPU超分提高了设备的利用率,具有优势,运行效率显著提升,但会造成一些新问题。比如,运行速度快,硬盘读取速度慢,内存亦是如此,三者步调不一致,导致CPU性能不稳定性极高,易发生死机。用户只需重新分配CPU,调回设置之前,就能解决死机问题。第三,硬盘使用时间太长逐渐老化,操作不当引起硬盘坏道,在运行过程中极易死机。通常做法是软件修复或者是直接更换老旧硬件。第四,软硬件互不兼容。软件和硬件相互匹配才能保证计算机正常运行。
  3大数据时代下计算机硬件故障处理手段
  3.1拔插检测
  拔插检测对于IO设备和主板故障十分有效,并且操作简便。首先对可能故障的板卡进行估计,然后将计算机关机并打开机箱,拔出故障板卡,重新打开计算机,如果在拔出板卡之后,服务器可以正常运行,那么就可以确定拔出的板卡或IO总线上出现了问题。
  3.2直接探测法
  直接探测有手摸、耳听、眼看和鼻嗅四种方法,注意要在安全的前提下进行。手摸主要是对活动芯片进行按压探测,来观察芯片是否存在接触不良或松动的情况,同时,通过触摸设备,根据设备外壳的温度来判断设备是否在正常运行。耳听主要是在服务器启动和运转时,服务器内部是否存在异常的声音,一般服务器在启动时都会对主板进行检测,如果检测中出现问题,就会发出警报,同样,在运行期间,风扇和硬盘都会一直在运行,如果出现异常声音,要及时进行检查。眼看主要是巡检时,察看设备故障指示灯,通过这些异常的提示内容及时发现服务器故障;在服务器关机时可以观察元器件是否存在烧毁等较为明显的故障。鼻嗅是指在集群运行期间有无类似烧焦的气味,这可能使地方发生短路故障,应迅速采取措施。
  4分布式集群设备故障维护
  4.1电源维护
  服务器通过电源获得电能,这些电能可以维持服务器的正常运行,每一台服务器都拥有一个独立的电源插头,服务器常年24小时开机不断电会导致发热进而出现故障,或者造成线路过热等一系列的问题。所以在选择机房运行环境时,一定要按照国家相关标准参看关键技术参数,这样可以减少一些安全隐患,除此之外,还需要定期对电源进行巡检,如果清洁不到位的话,那么灰尘就会堆积在电源盒里面,这样不仅会减少电源的使用寿命,甚至还会造成电源老化,从而产生安全隐患。
  4.2CPU和内存维护
  CPU是服务器的控制与运算核心,是服务器的大脑,对它的维护至关重要,因此要做到:合理分配CPU资源、避免业务较多的虚拟机部署在用一台物理机上。主板是构成复杂电子系统的主电路板,是服务器的神经,其上布置有大量的电路、电阻、电容及扩展槽等,还提供了一系列连接处理器、显卡、声卡、硬盘、对外设备等的结合点,对其各部分的维护都非常重要。因此要做到:避免频繁开关机,一次开、关机间隔应在30秒之上;开关机应当依循先关闭软件、后关闭操作系统的顺序;非专业人员不应随意打开机箱,要避免未关机时搬动主机、插拔主板元件,并使其接触良好;避免静电导致电路短路或主板损坏;做好主板、风扇的定期除尘;避免杂物遗留在主机内,主板线路远离热风扇,主板信号线远离电源线等。
  4.3硬盘维护
  服务器如果出现了比较明显的振动,那么计算机的硬盘就会被损坏,因为硬盘非常的脆弱,在服务器硬件中,硬盘更容易被损坏。所以应尽量避免服务器的移动,移动时应做好防护措施,并做好数据备份。而且硬盘中存储着很多文件,如果硬盘存储太多文件的话,服务器的I/O速度就会受到影响。
  5结束语
  总而言之,在集群的运维过程中,要做到及时巡检,及时发现故障并诊断故障发生的原因,只有了解了原因,才能对其中的硬件进行良好的维护,不仅可以提高集群的运行稳定性,还能在很大程度上保障快速故障恢复。用户掌握故障发生的原因,也能减少用户的无用功,避免浪费过多的资源。
  参考文献:
  [1]王艳.关于计算机硬件维护原则及方法的具体分析[J].信息技术与信息化,2018,12:94-96.
  (作者单位:内蒙古自治区大数据发展管理局)
其他文献
【摘 要】共享经济通过现代移动互联网实现信息传输,当互联网与传统技术应用形态,以及类型多样的实体性产业经济形态之间的充分结合,许多产业重新获得了蓬勃的发展;而快速消费品的采购可谓无处不在,其特点是反复采购,涉及企业的大量资金,对企业成本影响很大。因此将共享经济与快消品的采购战略联合起来研究,研究快消品的发展趋势,找到互相促进的共同点,加快行业自身的发展,通过政策层面的引导,来优化整合资源,促进相关
期刊
【摘 要】近年来,随着社会的发展,我国的人工智能技术发展也越来越迅速。发电厂电气自动化是现代工业发展的必然结果,也是现代科学技术在工业领域应用的直接表现。将发电厂电气自动化技术应用在企业生产过程中,可以降低企业生产成本,实现工业生产定量化、时效性。随着计算机、信息技术、控制技术在发电厂电气自动化系统的应用,使发电厂电气自动化系统逐渐向网络自动化和管理集成化方向发展。人工智能技术是计算机技术的分支,
期刊
【摘 要】随着移动互联网的快速的发展,移动设备已经成为网络中的重要载体,越来越多的企业改变固定场所工作的模式,开始更加灵活的工作方式,在此背景下电力企业移动APP被广泛的应用于日常办公、电力生产、战略决策等方面,因此企业移动APP的统一管理就显得尤为重要。  本文介绍企业移动管理平台的研发背景及核心功能,结合企业实际情况分析移动管理平台应用后的经济效益。  【关键词】移动设备;移动管理平台;APP
期刊
【摘 要】近年来,随着我国互联网行业发展速度逐渐加快,网络技术在生活中得到了广泛的应用,该技术也不断趋于成熟。现如今,电脑、智能手机等设备在人们的生活中已经随处可见,人们对于电子产品的依赖性也逐渐增强。计算机的使用为人们的生活带来了便利,但与此同时,计算机网络安全风险一直是影响用户体验的主要问题之一。如何优化网络环境,为用户打造良好的网络安全环境,已经成为社会所关注的焦点。  【关键词】计算机网络
期刊
【摘 要】在社会快速发展的影响下,科学技术发展步伐的加快,电力行业也得到了相应的发展,为了能够在当前的市场竞争中取得一定的优势,就需要人们重视电力营销策略与降损节能技术。作为电力企业在市场竞争中获得优势的重要筹码,降损节能技术在降低能耗、保护环境、提高企业经济效益上发挥着举足轻重的作用。因此,文章主要论述电力市场营销策略和降损节能技术措施,然后找寻突破口,将两者有效结合在一起。  【关键词】电力;
期刊
【摘 要】食品微生物与我们的生活的息息相关,近来年我们对于食品微生物的利用、检测和防治也越来越重视。LAMP也称环介导等温扩增技术,是近年来新兴微生物检测技术,该技术较其他检测技术相比具有更高的灵敏性,并且能够节约时间和成本、操作和结果判定相对简单等优点,因此能够快速应用于食物中的细菌、霉菌、病毒等微生物的检测。本文通过对LAMP技术在细菌、病毒、寄生虫、支原体等病菌中的检测进行分析,以期为食品高
期刊
【摘 要】当前,我国社会经济正呈现飞速发展态势,对于电力能源之需求亦与之相应呈现不断增长态势。研究与应用数字化用电监察技术,对于促进社会经济进一步发展并增强其发展稳定性而言,也在这一背景下具有显著意义。为此,本文主要围绕研究与应用数字化用电监察技术这一主题展开思考,分析开展数字化用电监察工作的价值并探讨电力企业推广应用数字化用电监察技术的具体策略,希望以此为电力企业开展用电监察管理工作提供具有借鉴
期刊
【摘 要】随着中国改革开放和经济全球化的进一步发展,带动了发展中国家的电力行业发展壮大,大型火电机组陆续投产,虽然火电厂在设计制造、运行维护等方面积累了成熟的经验,但仍存在因中外继电保护装置设计理念不同,继电保护装置判据不足,造成保护误动作。本文以某发展中国家燃煤电站500kV升压站ALSTOM MiCOM P841断路器失灵误动作案例为依据,从断路器失灵保护的工作原理、判据、定值整定、动作出口等
期刊
【摘 要】金属材料加工中热处理比较常见,对于提升金属材料性能以及满足不同应用要求具备积极作用。虽然当前金属材料热处理加工水平越来越高,但是依然存在着不容忽视的变形问题,本文就首先分析了影响金属材料热处理变形的各个因素,然后又探讨了控制策略。  【关键词】金属材料;热处理;变形;影响因素;控制策略  引言  在现阶段我国金属材料加工制造中,热处理是比较常见的基本处理技术,金属材料借助于热处理能够形成
期刊
【摘 要】随着经济社会的高速发展,网络技术蓬勃发展。5G时代已经到来,人们进入了信息高速传播、业务紧密连接的时代。人们对于互联网越来越依赖,5G核心网在新时期发挥着越来越关键的作用,能够逐步实现人与业务的全面对接。5G的使用使网络的差异化逐渐降低,逐步形成以互联网为中心的信息服务模式,逐步提升信息服务的质量以及工作效率。此外,5G核心网络模式可以为各行各业的工作提供服务,充分便利了社会服务以及人们
期刊