关于计算机硬件设备故障管理机制研究

来源 :计算机光盘软件与应用 | 被引量 : 0次 | 上传用户:lengyubo88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:当今社会是高度信息化的社会,计算机在各个生产领域所占的地位越来越重。现代化的商业操作都是以高校密集的计算机网络系统作为基础。如今的计算机已经发展成为了高性能容错计算机,这大大促进了相关技术和产业的发展。这一类计算机的容错框架的核心就是故障的实时监测和管理维修机制。本文就计算机硬件设备故障管理机制的故障原因、故障管理框架、故障诊断原则、故障诊断方法等作一浅析。
  关键词:故障管理机制;故障管理框架;诊断描述;故障诊断方法
  中图分类号:TP303
  1 计算机硬件设备故障原因分析
  随着科技的发展,计算机的使用已经渗透进各行各业,高度信息化自动化的浪潮席卷了全球,这一切都与计算机的强大计算能力息息相关。但是,计算机并不是能够保证永久正常运行的,在计算机的使用过程中硬件故障一直都是一个难以保障的问题。硬件故障的原因可能有病毒入侵和设备老化两种,计算机出现故障的时候,往往意味着我们的生产生活会受到极大的影响,所以我们要竭力避免这种情况。
  计算机的运行异常通常分为缺陷、紊乱和故障三种。缺陷指的是计算机在设计时或者制造时造成的先天性的瑕疵,缺陷体现出来的时候和计算机的运行状态和工作人员的操作都没有关系,这往往很难控制,也几乎无法维修。紊乱是指计算机在使用过程中,由于外界环境的变化,计算机本身的复杂构造往往会影响到计算机的使用,例如剧烈温度变化造成的电压不稳等问题,但是通常紊乱并不需要工作人员对计算机进行维修,往往等到环境因素稳定下来,计算机也就能正常工作了。计算机的故障往往发生在计算机的长时间使用之后,这种异常与生产和设计无关,造成的原因大部分是因为硬件老化或者遭到破坏,计算机的完整性难以保持,也就不能正常工作了。
  在三种使用异常中,只有故障这一种异常是可以弥补和修复的,在绝大多数情况下都会对故障的计算机进行修复。目前,世界上的故障管理系统由错误处理器、诊断引擎和故障响应代理三部分组成,主要使用了错误处理技术和诊断引擎技术,二者分别负责驱动容错、错误检测、错误纠正和帮助技术人员实现自动化的故障诊断。
  2 当下的计算机故障管理机制
  2.1 日志型故障管理机制
  目前的大多数操作系统使用的是日志故障处理机制。在故障发生时,系统通常只是将错误的元件信息转化为日志消息格式,直接将信息输送给管理员。这种机制的故障报告信道往往很多,而且缺乏统一的渠道管理,所以系统进场分散处理错误报告工作;甚至有时候人工对错误进行诊断和修复机器设备故障问题,无法实现自动化的故障管理操作。
  2.2 SFM系统
  该系统的工作原理标准是WEB的企业管理,诊断工具为模块式硬件设备。系统工作时能够实时监控系统运行,并将获取的硬件监测数据在同一时刻以中间件形式汇报给管理员,然后管理员根据接收到的信息快速准确地找到故障元件。SFM系统的不足之处有,系统在正常运行是必须伴随着特定的诊断程序的参与,而且算法采用了成本费用较高的主动式测试硬件算法,导致故障监测能力并不如预期,其修复能力与力度也极其有限,不足以满足自动化故障诊断的要求。
  2.3 X86 平台式MCA技术
  MCA技术的设备故障处理涉及三方面,分别是硬件、固件和操作系统。它有很大的局限性。第一,技术自身并不能检测设备故障,而是只能将错误信息传送给操作系统,由管理员做出判断及制定措施;第二,技术涉及的平台相关性占用了管理员大量的时间阅读错误日志信息,难以保证系统运行的高效;第三,故障管理软件的平台和供应商设备二者的错误报告标准很难或者没有办法统一。
  3 层次化故障管理机制
  计算机硬件管理技术在使用时都只是针对故障管理系统的三个部分服务的,而缺少一个共同的管理平台来集中化自动化智能化处理信息。层次化故障管理机制,层次化故障管理框架由此而来。一个完整框架的建设能保证故障管理系统在工作时能够长时间不间断的高效管理故障,对故障进行检测、诊断和预测等功能,并向技术人员返还维修建议。在故障管理框架中,系统的三部分变成了框架构成的三个组件,并能使现在服务器中正常的相互通信。框架被分为四个层次:资源层、故障管理层、事件层、传输层。
  资源层包括三个要素:硬件故障引发的错误行为、硬件引发错误的行为规则、硬件资源本身。在管理框架的实现过程中,管理系统所要做的是将这三个要素进行交互。资源层实现的是对管理系统提供的硬件资源进行核实的建模,为分析和管理提供基础。故障管理层提供了对故障的管理,错误处理组件对故障进行感知,故障诊断组件对引发错误的错误行为做以诊断,故障修复组件完成相对应的修复。事件层中,描述其根据谢医生称故障信息,对错误进行标准的描述,分排气将故障传递给处理模块,保证故障管理工作正常运行。传输层对事件在整个过程中进行封装,为事件从发生处传给消费者提供通道。
  4 故障管理诊断规则
  诊断规则描述方法在资源层是十分重要的。资源层提供了故障管理框架和硬件实体间实现交互的接口,对硬件的实体进行了有效的封装,它能够自行引导用户配置三要素,灵活配置故障处发生错误的规则。系统运行中出现的错误和故障一般情况下可以用一个事件协议来组织完成,协议将每一个错误行为和故障事件命名,并表示出错误信息,错误和故障将会以事件的形式在故障管理框架内传递。
  实际上诊断规则的地位可以说是资源层的核心,他直接反映了硬件故障的机理,是控制的核心内容,与每一段过程有息息相关。在诊断过程前,关键环节之一就是自定义诊断规则。诊断规则的描述非常复杂,和配置自定义错误行为要素和故障源要素都有很大区别,并不是仅仅需要把事件注册进入相应的事件协议并给各个属性赋值。诊断规则被要求能够充分表现出硬件故障之间各种错综复杂的关系,描述硬件故障和异常行为间的复杂过程,这些过程中需要极其强大的计算,因为硬件的连接不是简单地一对一连接,所以故障和错误很多时候不是一一对应的,有可能一个异常的出现是多个硬件共同作用的结果,也有可能一个硬件故障引起连锁反应带来多个异常信息。用户在使用计算机的过程中需要能够根据计算机的实际情况,自定义修改故障诊断规则,或者直接饮用第三方的诊断规则,但是要能够账务简单的诊断规则描述语法,以便对第三方规则做少许的改动。
  5 故障管理技术和方法
  故障管理技术有错误处理器技术,需要关注错误检测、错误纠正、驱动容错等方面;错误检测技术,有设备自觉监测和系统定时轮询两种方式,核心部分是错误检测覆盖率和错误监测判定值;错误实时纠正技术,包含指令纠错技术和纠错码两部分。
  故障管理方法分为基于规则的诊断和基于模型的诊断两种。
  基于规则的诊断中,被适时制定的规则由系统拓扑结构、故障上下文关系、系统管理员所共同决定。故障源有两种不同的分析方法,其一是参考硬件各元件的连接关系(即拓扑结构信息和故障上下文关系),另一个是参考系统本身保存的故障历史记录进行分析。后者在分析比较复杂的故障的时候非常有用。
  在基于模型的诊断中,诊断是在意见模型的基础上,通過诊断推理模型和定性模型方法对已经获取的信息进行预测和诊断。故障检测诊断的目的达成,通常需要分析和处理比较实际动态系统特性和系统数字模型中预测的系统特性。
  参考文献:
  [1]蒋谢彬,李献球.高可用系统的技术与应用[J].计算机系统应用,2013(01).
  [2]周江.纠错码在容错存储器设计中的应用[J].今日电子,2012(01).
  [3]孟庆利.故障管理系统中事件相关性分析的运用[J].世界电信,2014(10).
  [4]赵瑾,申忠宇,顾幸生.基于定量模型故障诊断技术若干问题的研究[J].自动化仪表,2011(03).
  作者单位:沈阳化工大学计算机应用实践中心,沈阳 110142
其他文献
摘 要:随着张家港学院网络改造方案的完成,各项性能均能满足教学教育管理的要求。利用该校园网,以信息化、网络化的教育手段,真正实现网络教学、远程教学和教育资源共享。只是该网络的改造是在原有的网络架构的基础上升级,核心的网络协议还是以IPv4为基础,而根据网络技术的发展趋势,未来的Internet基础设施将由IPv6实现“大一统”,学院的网络也必将进一步升级,为此,现在就要着手进行一些理论上的准备和实
传统LMS算法的特点是计算简单,易于实现,但是性能方面存在收敛速度和稳态均方误差的矛盾。为了解决这个矛盾,提出一种引用范数的双曲正切函数变步长最小均方误差(HT—VSS)LMS算法,
摘 要:随着互联网、物联网技术的发展,实验室的智能化管理迫在眉睫。校园一卡通的普及和唯一性为实验室智能管理提供了必备工具,是实验室智能登录系统设计与实现的基础。智能登录系统选用握奇W238X系列的卡式非接触读写器读取学生一卡通信息,进行智能匹配完成计算机登录,解决了实验室管理中的节能、安全问题,同时也极大的减轻了实验室的管理工作。智能登录系统的设计与实现是实验室智能化管理迈出的第一步,也为以后建设
5月23日下午,青海师大附中附属第二中学举行了学校学生艺术团成立启动仪式。
本文通过实际案例介绍了大型企业BI系统的设计,包括系统架构设计、数据仓库设计、ETL设计和应用展示设计。系统建设采用了全套IBM产品:AIX、DB2、DataStage、Cognos。
摘 要:本文对数据管理过程中出现的问题:数据不一致,有冗余性,独立性差提出了面向服务的移动应用数据管理的解决方案。该方案采用4层架构:客户端,VPN,Web Service和服务器,可以保障系统的安全性、可重用性和可移植性。然后,本文提出了移动应用数据管理的基本功能以及相应流程,并结合例子给出了具体实现。  关键词:面向服务;移动应用;数据管理;Web Service  中图分类号:TP311.1
果洛州电大地处偏远、条件艰苦、环境恶劣、信息闭塞,教学管理人员少,工作负荷重,管理难度大,严重制约着开放教育试点工作的深入进行,集中反映出青南少数民族地区“试点”项目管理
测量物质密度时,因使用的器材不同,所用原理、方法也不同。现就测量物质密度的原理及较典型的方法作一归纳。一、利用定义测量物质的密度
摘 要:当下我国通信行业的发展,正在以其技术的创新突破和业务的多样化办理在市场建设中扮演着愈加重要的角色,计算机技术进步掀起的数字化发展浪潮,更是推动了我国通信行业的数字化发展,通信渠道的充分利用,有效提升了数据的传输效率,也进一步保障了数据内容的安全性。在通信传输日渐普及的同时,通信交换技术作为通信传输的延伸,也伴随着网络技术的发展逐渐兴盛起来,发展至今,通信交换技术已经成为囊括电路通信交换,光
在分析了医学图像处理课程特点的基础上,结合医学院校学生的实际情况,对课程教学模式开展了探索与实践。通过串烧式的课堂讲解和讨论、课程实验、教学环节的实施,设计开发基于matlab的医学图像处理教学平台系统,把教学与学生兴趣、能力很好地结合起来,新颖的考核方式得到学生肯定。