论文部分内容阅读
[摘 要]随着信息技术在当前社会越来越受到重视,服务器的价值也更加突显出来。作为第二代UNIX的操作系统,AIX系统所具有的快速、稳定、安全等优势也更加为人们所重视,逐渐成为银行、数据中心等关键企业中发挥中枢作用的操作品台。但是,在服务器在线模式中,AIX系统仍然会存在一些错误。基于此,本文拟以服务器在线模式下硬件故障诊断为研究主题,希望能够为服务器的高效稳定工作提供保障方案。
[关键词]服务器;在线模式;硬件故障;诊断
中图分类号:TP368.5 文献标识码:A 文章编号:1009-914X(2017)36-0236-01
前言:云技术及服务器发展状况概述
自从计算机诞生以来,辅助计算机而出现的服务器及其相关的各种技术已经有了几十年的历史。就目前来看,随着互联网通信行业的迅猛发展,新的技术标准和需求已经向着云技术和移动平台的方向发展,这样能够最大限度地满足便捷、快速的需要,并且,客户端也向着手持化的方向推进,这也要求客户端使用程序需要保存在依托互联网而存在的云端之中。
按照上述的发展路径,今后的承载云技术和移动终端的服务器数量,势必会因为需求量的增长而呈现几何数的增加状态,如此,在便利大众生活的同时,其中的问题和故障也会因为数量的激增而暴露出来。但是,一旦落实到故障诊断问题中,由于服务器的网络化连接,及同时支持大量操作者,故障检测和排查就变得异常复杂,给服务器的检测维修带来了很大的麻烦。
为了避免上述状况给服务器检修造成的不便,需要开发更为专业的操作系统以开展工作。本文展开讨论的平台是AIX(Advanced Interactive eXecutive)操作系统,它是IBM公司根据AT&T Unix System V而研发出的类似UNIX的操作系统,可以说是更先进的第二代UNIX,具有性能完善,使用方便,扩充性强等主要优势。下面本文便结合实例,探讨服务器在线模式下硬件故障诊断的方法。
1.服务器在线模式下的一般故障
电脑服务器在使用中常会出现一些一般性的错误,虽然这些错误并不至于导致整个网络系统的崩溃,但是会限制系统的正常工作,降低数据处理和运算的效率,如果不及时处理,有可能进一步扩大,对系统安全造成破坏。
所以,一旦服务器系统出现问题时,工作人员要及时发现并且着手处理,以避免进一步破坏的发生。因此,服务器的管理人员要具备一般故障的预先判别经验,做到早发现、早排查,这时故障诊断的重点和关键。
2.系统故障分析和判断方法概述
在AIX系统下,为了更快速地检测出故障所在,可以使用diag命令的方式进行处理,具体来说,工作人员首先进入系统的管理员模式,运行#diag命令,以开始服务器硬件的诊断,这样可以完成服务器主机内部存在问题的排查和分析,主要包括:
diagnostic routines
advanced diagnostics routines
task selection (Diagnostics, Advanced Diagnostics, Service Aids, etc)
Resource Selection
这其中,#diag -S testsuite表示进行测试的特定设备“测试组”,包含以下八种:
(1)基本系统;(2)I/O 设备;(3)异步设备;(4)圖形设备;(5)SCSI设备;(6)存储设备;(7)通信设备;(8)多媒体设备
#diag –s
在所有资源上运行诊断。
3.查看系统的错误日志
服务器系统的错误会给我们预测以后的错误提供经验和参照,所以查看系统的错误日志也是很重要的一项任务。
具体来说,在服务器运行中,系统出现错误时,错误一般会被记录在errlog中,以文件的形式保存下来,其中一些错误还会直接显示在系统的终端中。当工作人员检查系统错误的日志时,可以使用下列命令:
#errpt|more 查看系统所有的记录
IDENTIFIER TIMESTAM P T C RESOURCE_NAME DESCRIPTION
E85C5C4C 0426104399 P S CFGLFT SOFTWARE PROGRAM ERROR
2BFA76F6 0426104099 T S SYSPROC SYSTEM SHUTDOWN BY USER
9D4CF6E7 0426104399 T O errdemon ERROR LOGGING TURNED ON
1E2AC07E 0426103999 T O errdemon ERROR LOGGING TURNED OFF
1E5EER4T 0423132999 T O clstrmgr OPERATOR NOTIFICATION
在这其中,IDENTIFIER表示的是错误的编号,这些信息在一般情况下不会被使用到,但是如果检查时需要更为详细的信息时,才会使用这些信息。
而TIME STAMP表示的是错误的具体时间,当错误出现时,便被记录下来,其格式往往是以月-日-时-分-年的形式展现出来。此外,命令中的T指的是Type ,表示服务器的错误类型,这其中P表示的是永久性的错误,当看到此类时需要提高警惕;而T表示的是临时性的错误。
C表示的是为Class, 其记录的是错误的具体种类,如:H : Hardware S : Software O : Errloger command messages U : undetermined 。
此外RESOURCE_NAME表示的是错误的来源,而DESCRIPTION表示的是错误的描述。工作人员可以通过这些具体的命令及其结果来推知错误的具体情况和所在之处,尽快地完成服务器系统的排查和维修工作。
4.DUMP文件及其使用
DUMP文件指的是,当服务器系统出现软件或者硬件的故障而造成宕机情况时,系统将会自动手机故障出现时的系统内存、处理器等状态信息,并储存到文件中,并将在终端的屏幕上显示888开始的代码。借助DUMP文件,有助于工作人员具体分析故障发生的原因,从而找到症结。
5.日常檢查服务器状态的项目及其相关命令
作为次要的常规操作,进行定期的服务器系统性能的检查,对于工作人员了解服务器的运行状况及故障点的预测。进行该操作的相关命令包括:
Iostat:Iostat命令可以帮助工作人员了解服务器系统的I/O 状态,并且分析处理器中各个端口的服务占比情况等。
Vmstat:Vmstat命令可以帮助工作人员检查系统的虚拟内存的状态和运行情况。
Sar:Sar命令可以用来检查服务器系统的活动状态。
Topas:Topas命令可以帮助工作人员实时地进行系统内存的监控工作,以及处理器、I/O 端口以及swap储存空间的基本情况。
Svmon:该命令用来查看系统当前的内存的具体使用情况。
6.结语和展望
总之,任何服务器系统都存在出现故障的可能性,这是科技手段终究无法避免的终极情况。对此,我们要积极行动起来,充分发挥AIX系统的优势,进行系统运行状况的实时监控和检测,以最快速度的完成故障的诊断和排查工作,避免更大的故障出现。我们也应该相信,随着电子计算机技术的不断发展,服务器系统的故障排查,终究会实现自动化的趋势。
参考文献
[1] 高峰,覃冬梅,茹锋,等.基于客户机/服务器模式下的热电厂在线数据采集的编程实现[J].工业控制计算机,2000(4):33-35.
[关键词]服务器;在线模式;硬件故障;诊断
中图分类号:TP368.5 文献标识码:A 文章编号:1009-914X(2017)36-0236-01
前言:云技术及服务器发展状况概述
自从计算机诞生以来,辅助计算机而出现的服务器及其相关的各种技术已经有了几十年的历史。就目前来看,随着互联网通信行业的迅猛发展,新的技术标准和需求已经向着云技术和移动平台的方向发展,这样能够最大限度地满足便捷、快速的需要,并且,客户端也向着手持化的方向推进,这也要求客户端使用程序需要保存在依托互联网而存在的云端之中。
按照上述的发展路径,今后的承载云技术和移动终端的服务器数量,势必会因为需求量的增长而呈现几何数的增加状态,如此,在便利大众生活的同时,其中的问题和故障也会因为数量的激增而暴露出来。但是,一旦落实到故障诊断问题中,由于服务器的网络化连接,及同时支持大量操作者,故障检测和排查就变得异常复杂,给服务器的检测维修带来了很大的麻烦。
为了避免上述状况给服务器检修造成的不便,需要开发更为专业的操作系统以开展工作。本文展开讨论的平台是AIX(Advanced Interactive eXecutive)操作系统,它是IBM公司根据AT&T Unix System V而研发出的类似UNIX的操作系统,可以说是更先进的第二代UNIX,具有性能完善,使用方便,扩充性强等主要优势。下面本文便结合实例,探讨服务器在线模式下硬件故障诊断的方法。
1.服务器在线模式下的一般故障
电脑服务器在使用中常会出现一些一般性的错误,虽然这些错误并不至于导致整个网络系统的崩溃,但是会限制系统的正常工作,降低数据处理和运算的效率,如果不及时处理,有可能进一步扩大,对系统安全造成破坏。
所以,一旦服务器系统出现问题时,工作人员要及时发现并且着手处理,以避免进一步破坏的发生。因此,服务器的管理人员要具备一般故障的预先判别经验,做到早发现、早排查,这时故障诊断的重点和关键。
2.系统故障分析和判断方法概述
在AIX系统下,为了更快速地检测出故障所在,可以使用diag命令的方式进行处理,具体来说,工作人员首先进入系统的管理员模式,运行#diag命令,以开始服务器硬件的诊断,这样可以完成服务器主机内部存在问题的排查和分析,主要包括:
diagnostic routines
advanced diagnostics routines
task selection (Diagnostics, Advanced Diagnostics, Service Aids, etc)
Resource Selection
这其中,#diag -S testsuite表示进行测试的特定设备“测试组”,包含以下八种:
(1)基本系统;(2)I/O 设备;(3)异步设备;(4)圖形设备;(5)SCSI设备;(6)存储设备;(7)通信设备;(8)多媒体设备
#diag –s
在所有资源上运行诊断。
3.查看系统的错误日志
服务器系统的错误会给我们预测以后的错误提供经验和参照,所以查看系统的错误日志也是很重要的一项任务。
具体来说,在服务器运行中,系统出现错误时,错误一般会被记录在errlog中,以文件的形式保存下来,其中一些错误还会直接显示在系统的终端中。当工作人员检查系统错误的日志时,可以使用下列命令:
#errpt|more 查看系统所有的记录
IDENTIFIER TIMESTAM P T C RESOURCE_NAME DESCRIPTION
E85C5C4C 0426104399 P S CFGLFT SOFTWARE PROGRAM ERROR
2BFA76F6 0426104099 T S SYSPROC SYSTEM SHUTDOWN BY USER
9D4CF6E7 0426104399 T O errdemon ERROR LOGGING TURNED ON
1E2AC07E 0426103999 T O errdemon ERROR LOGGING TURNED OFF
1E5EER4T 0423132999 T O clstrmgr OPERATOR NOTIFICATION
在这其中,IDENTIFIER表示的是错误的编号,这些信息在一般情况下不会被使用到,但是如果检查时需要更为详细的信息时,才会使用这些信息。
而TIME STAMP表示的是错误的具体时间,当错误出现时,便被记录下来,其格式往往是以月-日-时-分-年的形式展现出来。此外,命令中的T指的是Type ,表示服务器的错误类型,这其中P表示的是永久性的错误,当看到此类时需要提高警惕;而T表示的是临时性的错误。
C表示的是为Class, 其记录的是错误的具体种类,如:H : Hardware S : Software O : Errloger command messages U : undetermined 。
此外RESOURCE_NAME表示的是错误的来源,而DESCRIPTION表示的是错误的描述。工作人员可以通过这些具体的命令及其结果来推知错误的具体情况和所在之处,尽快地完成服务器系统的排查和维修工作。
4.DUMP文件及其使用
DUMP文件指的是,当服务器系统出现软件或者硬件的故障而造成宕机情况时,系统将会自动手机故障出现时的系统内存、处理器等状态信息,并储存到文件中,并将在终端的屏幕上显示888开始的代码。借助DUMP文件,有助于工作人员具体分析故障发生的原因,从而找到症结。
5.日常檢查服务器状态的项目及其相关命令
作为次要的常规操作,进行定期的服务器系统性能的检查,对于工作人员了解服务器的运行状况及故障点的预测。进行该操作的相关命令包括:
Iostat:Iostat命令可以帮助工作人员了解服务器系统的I/O 状态,并且分析处理器中各个端口的服务占比情况等。
Vmstat:Vmstat命令可以帮助工作人员检查系统的虚拟内存的状态和运行情况。
Sar:Sar命令可以用来检查服务器系统的活动状态。
Topas:Topas命令可以帮助工作人员实时地进行系统内存的监控工作,以及处理器、I/O 端口以及swap储存空间的基本情况。
Svmon:该命令用来查看系统当前的内存的具体使用情况。
6.结语和展望
总之,任何服务器系统都存在出现故障的可能性,这是科技手段终究无法避免的终极情况。对此,我们要积极行动起来,充分发挥AIX系统的优势,进行系统运行状况的实时监控和检测,以最快速度的完成故障的诊断和排查工作,避免更大的故障出现。我们也应该相信,随着电子计算机技术的不断发展,服务器系统的故障排查,终究会实现自动化的趋势。
参考文献
[1] 高峰,覃冬梅,茹锋,等.基于客户机/服务器模式下的热电厂在线数据采集的编程实现[J].工业控制计算机,2000(4):33-35.