论文部分内容阅读
摘 要:当今社会是高度信息化的社会,计算机在各个生产领域所占的地位越来越重。现代化的商业操作都是以高校密集的计算机网络系统作为基础。如今的计算机已经发展成为了高性能容错计算机,这大大促进了相关技术和产业的发展。这一类计算机的容错框架的核心就是故障的实时监测和管理维修机制。本文就计算机硬件设备故障管理机制的故障原因、故障管理框架、故障诊断原则、故障诊断方法等作一浅析。
关键词:故障管理机制;故障管理框架;诊断描述;故障诊断方法
中图分类号:TP303
1 计算机硬件设备故障原因分析
随着科技的发展,计算机的使用已经渗透进各行各业,高度信息化自动化的浪潮席卷了全球,这一切都与计算机的强大计算能力息息相关。但是,计算机并不是能够保证永久正常运行的,在计算机的使用过程中硬件故障一直都是一个难以保障的问题。硬件故障的原因可能有病毒入侵和设备老化两种,计算机出现故障的时候,往往意味着我们的生产生活会受到极大的影响,所以我们要竭力避免这种情况。
计算机的运行异常通常分为缺陷、紊乱和故障三种。缺陷指的是计算机在设计时或者制造时造成的先天性的瑕疵,缺陷体现出来的时候和计算机的运行状态和工作人员的操作都没有关系,这往往很难控制,也几乎无法维修。紊乱是指计算机在使用过程中,由于外界环境的变化,计算机本身的复杂构造往往会影响到计算机的使用,例如剧烈温度变化造成的电压不稳等问题,但是通常紊乱并不需要工作人员对计算机进行维修,往往等到环境因素稳定下来,计算机也就能正常工作了。计算机的故障往往发生在计算机的长时间使用之后,这种异常与生产和设计无关,造成的原因大部分是因为硬件老化或者遭到破坏,计算机的完整性难以保持,也就不能正常工作了。
在三种使用异常中,只有故障这一种异常是可以弥补和修复的,在绝大多数情况下都会对故障的计算机进行修复。目前,世界上的故障管理系统由错误处理器、诊断引擎和故障响应代理三部分组成,主要使用了错误处理技术和诊断引擎技术,二者分别负责驱动容错、错误检测、错误纠正和帮助技术人员实现自动化的故障诊断。
2 当下的计算机故障管理机制
2.1 日志型故障管理机制
目前的大多数操作系统使用的是日志故障处理机制。在故障发生时,系统通常只是将错误的元件信息转化为日志消息格式,直接将信息输送给管理员。这种机制的故障报告信道往往很多,而且缺乏统一的渠道管理,所以系统进场分散处理错误报告工作;甚至有时候人工对错误进行诊断和修复机器设备故障问题,无法实现自动化的故障管理操作。
2.2 SFM系统
该系统的工作原理标准是WEB的企业管理,诊断工具为模块式硬件设备。系统工作时能够实时监控系统运行,并将获取的硬件监测数据在同一时刻以中间件形式汇报给管理员,然后管理员根据接收到的信息快速准确地找到故障元件。SFM系统的不足之处有,系统在正常运行是必须伴随着特定的诊断程序的参与,而且算法采用了成本费用较高的主动式测试硬件算法,导致故障监测能力并不如预期,其修复能力与力度也极其有限,不足以满足自动化故障诊断的要求。
2.3 X86 平台式MCA技术
MCA技术的设备故障处理涉及三方面,分别是硬件、固件和操作系统。它有很大的局限性。第一,技术自身并不能检测设备故障,而是只能将错误信息传送给操作系统,由管理员做出判断及制定措施;第二,技术涉及的平台相关性占用了管理员大量的时间阅读错误日志信息,难以保证系统运行的高效;第三,故障管理软件的平台和供应商设备二者的错误报告标准很难或者没有办法统一。
3 层次化故障管理机制
计算机硬件管理技术在使用时都只是针对故障管理系统的三个部分服务的,而缺少一个共同的管理平台来集中化自动化智能化处理信息。层次化故障管理机制,层次化故障管理框架由此而来。一个完整框架的建设能保证故障管理系统在工作时能够长时间不间断的高效管理故障,对故障进行检测、诊断和预测等功能,并向技术人员返还维修建议。在故障管理框架中,系统的三部分变成了框架构成的三个组件,并能使现在服务器中正常的相互通信。框架被分为四个层次:资源层、故障管理层、事件层、传输层。
资源层包括三个要素:硬件故障引发的错误行为、硬件引发错误的行为规则、硬件资源本身。在管理框架的实现过程中,管理系统所要做的是将这三个要素进行交互。资源层实现的是对管理系统提供的硬件资源进行核实的建模,为分析和管理提供基础。故障管理层提供了对故障的管理,错误处理组件对故障进行感知,故障诊断组件对引发错误的错误行为做以诊断,故障修复组件完成相对应的修复。事件层中,描述其根据谢医生称故障信息,对错误进行标准的描述,分排气将故障传递给处理模块,保证故障管理工作正常运行。传输层对事件在整个过程中进行封装,为事件从发生处传给消费者提供通道。
4 故障管理诊断规则
诊断规则描述方法在资源层是十分重要的。资源层提供了故障管理框架和硬件实体间实现交互的接口,对硬件的实体进行了有效的封装,它能够自行引导用户配置三要素,灵活配置故障处发生错误的规则。系统运行中出现的错误和故障一般情况下可以用一个事件协议来组织完成,协议将每一个错误行为和故障事件命名,并表示出错误信息,错误和故障将会以事件的形式在故障管理框架内传递。
实际上诊断规则的地位可以说是资源层的核心,他直接反映了硬件故障的机理,是控制的核心内容,与每一段过程有息息相关。在诊断过程前,关键环节之一就是自定义诊断规则。诊断规则的描述非常复杂,和配置自定义错误行为要素和故障源要素都有很大区别,并不是仅仅需要把事件注册进入相应的事件协议并给各个属性赋值。诊断规则被要求能够充分表现出硬件故障之间各种错综复杂的关系,描述硬件故障和异常行为间的复杂过程,这些过程中需要极其强大的计算,因为硬件的连接不是简单地一对一连接,所以故障和错误很多时候不是一一对应的,有可能一个异常的出现是多个硬件共同作用的结果,也有可能一个硬件故障引起连锁反应带来多个异常信息。用户在使用计算机的过程中需要能够根据计算机的实际情况,自定义修改故障诊断规则,或者直接饮用第三方的诊断规则,但是要能够账务简单的诊断规则描述语法,以便对第三方规则做少许的改动。
5 故障管理技术和方法
故障管理技术有错误处理器技术,需要关注错误检测、错误纠正、驱动容错等方面;错误检测技术,有设备自觉监测和系统定时轮询两种方式,核心部分是错误检测覆盖率和错误监测判定值;错误实时纠正技术,包含指令纠错技术和纠错码两部分。
故障管理方法分为基于规则的诊断和基于模型的诊断两种。
基于规则的诊断中,被适时制定的规则由系统拓扑结构、故障上下文关系、系统管理员所共同决定。故障源有两种不同的分析方法,其一是参考硬件各元件的连接关系(即拓扑结构信息和故障上下文关系),另一个是参考系统本身保存的故障历史记录进行分析。后者在分析比较复杂的故障的时候非常有用。
在基于模型的诊断中,诊断是在意见模型的基础上,通過诊断推理模型和定性模型方法对已经获取的信息进行预测和诊断。故障检测诊断的目的达成,通常需要分析和处理比较实际动态系统特性和系统数字模型中预测的系统特性。
参考文献:
[1]蒋谢彬,李献球.高可用系统的技术与应用[J].计算机系统应用,2013(01).
[2]周江.纠错码在容错存储器设计中的应用[J].今日电子,2012(01).
[3]孟庆利.故障管理系统中事件相关性分析的运用[J].世界电信,2014(10).
[4]赵瑾,申忠宇,顾幸生.基于定量模型故障诊断技术若干问题的研究[J].自动化仪表,2011(03).
作者单位:沈阳化工大学计算机应用实践中心,沈阳 110142
关键词:故障管理机制;故障管理框架;诊断描述;故障诊断方法
中图分类号:TP303
1 计算机硬件设备故障原因分析
随着科技的发展,计算机的使用已经渗透进各行各业,高度信息化自动化的浪潮席卷了全球,这一切都与计算机的强大计算能力息息相关。但是,计算机并不是能够保证永久正常运行的,在计算机的使用过程中硬件故障一直都是一个难以保障的问题。硬件故障的原因可能有病毒入侵和设备老化两种,计算机出现故障的时候,往往意味着我们的生产生活会受到极大的影响,所以我们要竭力避免这种情况。
计算机的运行异常通常分为缺陷、紊乱和故障三种。缺陷指的是计算机在设计时或者制造时造成的先天性的瑕疵,缺陷体现出来的时候和计算机的运行状态和工作人员的操作都没有关系,这往往很难控制,也几乎无法维修。紊乱是指计算机在使用过程中,由于外界环境的变化,计算机本身的复杂构造往往会影响到计算机的使用,例如剧烈温度变化造成的电压不稳等问题,但是通常紊乱并不需要工作人员对计算机进行维修,往往等到环境因素稳定下来,计算机也就能正常工作了。计算机的故障往往发生在计算机的长时间使用之后,这种异常与生产和设计无关,造成的原因大部分是因为硬件老化或者遭到破坏,计算机的完整性难以保持,也就不能正常工作了。
在三种使用异常中,只有故障这一种异常是可以弥补和修复的,在绝大多数情况下都会对故障的计算机进行修复。目前,世界上的故障管理系统由错误处理器、诊断引擎和故障响应代理三部分组成,主要使用了错误处理技术和诊断引擎技术,二者分别负责驱动容错、错误检测、错误纠正和帮助技术人员实现自动化的故障诊断。
2 当下的计算机故障管理机制
2.1 日志型故障管理机制
目前的大多数操作系统使用的是日志故障处理机制。在故障发生时,系统通常只是将错误的元件信息转化为日志消息格式,直接将信息输送给管理员。这种机制的故障报告信道往往很多,而且缺乏统一的渠道管理,所以系统进场分散处理错误报告工作;甚至有时候人工对错误进行诊断和修复机器设备故障问题,无法实现自动化的故障管理操作。
2.2 SFM系统
该系统的工作原理标准是WEB的企业管理,诊断工具为模块式硬件设备。系统工作时能够实时监控系统运行,并将获取的硬件监测数据在同一时刻以中间件形式汇报给管理员,然后管理员根据接收到的信息快速准确地找到故障元件。SFM系统的不足之处有,系统在正常运行是必须伴随着特定的诊断程序的参与,而且算法采用了成本费用较高的主动式测试硬件算法,导致故障监测能力并不如预期,其修复能力与力度也极其有限,不足以满足自动化故障诊断的要求。
2.3 X86 平台式MCA技术
MCA技术的设备故障处理涉及三方面,分别是硬件、固件和操作系统。它有很大的局限性。第一,技术自身并不能检测设备故障,而是只能将错误信息传送给操作系统,由管理员做出判断及制定措施;第二,技术涉及的平台相关性占用了管理员大量的时间阅读错误日志信息,难以保证系统运行的高效;第三,故障管理软件的平台和供应商设备二者的错误报告标准很难或者没有办法统一。
3 层次化故障管理机制
计算机硬件管理技术在使用时都只是针对故障管理系统的三个部分服务的,而缺少一个共同的管理平台来集中化自动化智能化处理信息。层次化故障管理机制,层次化故障管理框架由此而来。一个完整框架的建设能保证故障管理系统在工作时能够长时间不间断的高效管理故障,对故障进行检测、诊断和预测等功能,并向技术人员返还维修建议。在故障管理框架中,系统的三部分变成了框架构成的三个组件,并能使现在服务器中正常的相互通信。框架被分为四个层次:资源层、故障管理层、事件层、传输层。
资源层包括三个要素:硬件故障引发的错误行为、硬件引发错误的行为规则、硬件资源本身。在管理框架的实现过程中,管理系统所要做的是将这三个要素进行交互。资源层实现的是对管理系统提供的硬件资源进行核实的建模,为分析和管理提供基础。故障管理层提供了对故障的管理,错误处理组件对故障进行感知,故障诊断组件对引发错误的错误行为做以诊断,故障修复组件完成相对应的修复。事件层中,描述其根据谢医生称故障信息,对错误进行标准的描述,分排气将故障传递给处理模块,保证故障管理工作正常运行。传输层对事件在整个过程中进行封装,为事件从发生处传给消费者提供通道。
4 故障管理诊断规则
诊断规则描述方法在资源层是十分重要的。资源层提供了故障管理框架和硬件实体间实现交互的接口,对硬件的实体进行了有效的封装,它能够自行引导用户配置三要素,灵活配置故障处发生错误的规则。系统运行中出现的错误和故障一般情况下可以用一个事件协议来组织完成,协议将每一个错误行为和故障事件命名,并表示出错误信息,错误和故障将会以事件的形式在故障管理框架内传递。
实际上诊断规则的地位可以说是资源层的核心,他直接反映了硬件故障的机理,是控制的核心内容,与每一段过程有息息相关。在诊断过程前,关键环节之一就是自定义诊断规则。诊断规则的描述非常复杂,和配置自定义错误行为要素和故障源要素都有很大区别,并不是仅仅需要把事件注册进入相应的事件协议并给各个属性赋值。诊断规则被要求能够充分表现出硬件故障之间各种错综复杂的关系,描述硬件故障和异常行为间的复杂过程,这些过程中需要极其强大的计算,因为硬件的连接不是简单地一对一连接,所以故障和错误很多时候不是一一对应的,有可能一个异常的出现是多个硬件共同作用的结果,也有可能一个硬件故障引起连锁反应带来多个异常信息。用户在使用计算机的过程中需要能够根据计算机的实际情况,自定义修改故障诊断规则,或者直接饮用第三方的诊断规则,但是要能够账务简单的诊断规则描述语法,以便对第三方规则做少许的改动。
5 故障管理技术和方法
故障管理技术有错误处理器技术,需要关注错误检测、错误纠正、驱动容错等方面;错误检测技术,有设备自觉监测和系统定时轮询两种方式,核心部分是错误检测覆盖率和错误监测判定值;错误实时纠正技术,包含指令纠错技术和纠错码两部分。
故障管理方法分为基于规则的诊断和基于模型的诊断两种。
基于规则的诊断中,被适时制定的规则由系统拓扑结构、故障上下文关系、系统管理员所共同决定。故障源有两种不同的分析方法,其一是参考硬件各元件的连接关系(即拓扑结构信息和故障上下文关系),另一个是参考系统本身保存的故障历史记录进行分析。后者在分析比较复杂的故障的时候非常有用。
在基于模型的诊断中,诊断是在意见模型的基础上,通過诊断推理模型和定性模型方法对已经获取的信息进行预测和诊断。故障检测诊断的目的达成,通常需要分析和处理比较实际动态系统特性和系统数字模型中预测的系统特性。
参考文献:
[1]蒋谢彬,李献球.高可用系统的技术与应用[J].计算机系统应用,2013(01).
[2]周江.纠错码在容错存储器设计中的应用[J].今日电子,2012(01).
[3]孟庆利.故障管理系统中事件相关性分析的运用[J].世界电信,2014(10).
[4]赵瑾,申忠宇,顾幸生.基于定量模型故障诊断技术若干问题的研究[J].自动化仪表,2011(03).
作者单位:沈阳化工大学计算机应用实践中心,沈阳 110142