论文部分内容阅读
摘 要:随着计算机网络在电力企业的应用越来越广,如何有效地做好本单位计算机网络的日常维护工作,确保其安全稳定地运行,这是网络运行维护人员的一项非常重要的工作,文章主要对这一问题作以下探讨。
关键词:计算机网络;故障排除;方法
中图分类号:G623.58文献标识码: A 文章编号:
1 分析模型和处理方法
1.1 七层的网络结构分析模型方法
我们知道根据ISO 组织发布的OSI (Open System Internetwork)即开放通信系统互联参考模型。计算机网络自下而上分为物理层、数据链路层、网络层、传输层、会话层、表示层、应用层。从这七层结构的定义和功能上逐一进行分析和排查,这是传统的而且最基础的分析和测试方法。这里有自下而上和自上而下两种思路。自下而上是:从物理层的链路开始检测直到应用。自上而下是:从应用协议中捕捉数据包,分析数据包统计和流量统计信息,以获得有价值的资料。
1.2 使用工具分析
工具型分析方法有强大的各种测试工具和软件,它们的自动分析能快速地给出网络的各种参数甚至是故障的分析结果,这对解决常见网络故障非常有效。这里推荐使用的是FLUCK 网络测试工具。但是工具毕竟是工具,在使用过程中难免会出现一些人为的或者设备的误差,会在处理的过程中扰乱处理思路。
1.3 依靠经验分析
在大多数的网络维护工作人员的工作中是在不断的积累处理故障的经验。从而在新的故障发生时依靠平时积累的经验首先对故障做出判断。这种方式虽然在处理一些故障时迅速而且有效,但是容易产生惯性思维。当出现新的故障无法用经验解决时就显得比较棘手。
2 计算机网络故障排除
2.1 根据上面所述, 对于某一台联网计算机上不了网的故障,我们使用网络分层分析法自下而上进行分析。首先要分别确定此计算机的网卡安装是否正确, 是否存在硬件故障,网络配置是否正确在实际工作中我们一般采用Ping 本机的回送地址(127.0.0.1)来判断网卡硬件安装和TCP/ IP 协议的正确性。如果能Ping 通,即说明这部分没有问题。如果出现超时情况,则要检查计算机的网卡是否与机器上的其它设备存在中断冲突的问题。通过查看系统属性中的设备管理器,查看是否在网络适配器的设备前面有黄色惊叹号或红色叉号,如有则说明硬件的驱动程序没有安装成功,可删除后重新安装。另外,要确保TCP/ IP 协議安装的正确性,并且要绑定在你所安装的网卡上。如果重新安装后还是Ping 不通回送地址,最好换上一块正常的网卡试一试。当确保了计算机的硬件设备和网络配置正确后,接着就
要查看计算机与交换机之间的双绞线, 交换机的RJ45 端口或交换机的配置是否有问题。此时我们要Ping 上网计算机所在VLAN 的网关, 不通的话就要分段检查上面所说的各项。最简单的方法是检查双绞线。这里我们使用设备进行分析,用线缆测试仪检测双绞线是否断开。双绞线没有问题,就要查看交换机的端口是否坏了。交换机每一个端口都有状态指示灯以询问一下其它网管人员就可以排除了,如果不放心可以对照查看。交换机的参数配置表也是网络管理员必备的资料之一,并且随着网络用户的变化要不断地修改,检测到此,如果端口指示灯不亮,就只能是端口损坏了,可以把跳线接到正常使用的端口上排除其它原因,确定是端口的问题。这里要补充的一点是,作为一名网络管理员还必须清楚单位的网络拓扑结构。这一点在处理单台计算机的问题上似乎显的不是很重要但是其重要性体现在在处理一批计算机的网络故障。
2.2 一批联网计算机上不了网对于同时有一批计算机上不了网的故障,首先要找到这些计算机的共性,如是不是属于同一VLAN 或接在同一交换机上的,若这些计算机属于同一VLAN,且属于计算机分别连接于不同的楼层交换机,那么检查一下路由器上是否有acl 限制, 在路由器上对该VLAN 的配置是否正确,路由协议(如我局的OSPF 协议)是否配置正确。若这些计算机属于同一交换机,则应到机房检查该交换机是否有电源松落情况, 或该交换机CPU 负载率是否很高,与上一级网络设备的链路是否正常。通常某交换机连接的所有电脑都不能正常与网内其它电脑通讯,这是典型的交换机死机现象,可以通过重新启动交换机的方法解决。如果重新启动后故障依旧, 则检查一下那台交换机连接的所有电脑,看逐个断开连接的每台电脑的情况,慢慢定位到某个故障电脑,会发现多半是某台电脑上的网卡故障导致的。故障通常是交换机的某个端口变得非常缓慢,最后导致整台交换机或整个堆叠慢下来。通过控制台检查交换机的状态,发现交换机的缓冲池增长得非常快,达到了90%或更多。原因及解决方法为:首先应该使用其它电脑更换这个端口上原来的连接, 看是否由这个端口连接的那台电脑的网络故障导致的,也可以重新设置出错的端口并重新启动交换机, 个别时候,可能是这个端口损坏了。
3 故障定位及排除的常用方法
3.1 监控系统分析
通过网络流量监控系统获取告警和性能信息进行故障定位。我们单位使用了深信服网络网管,可以对全单位的网络设备进行管理,平时多观察各端口、各链路、以及各业的流量。当有人反映不能连接至网络或网速很慢时,可通过网管观察计算机与交换机的连接情况, 是否有时断时通的现象,交换机CPU 负载率是否很高,线路流量是否很大。通过观察设备端口状态,分析和观察交换机哪个端口所接的计算机发包量不太正常。
3.2 查看网络设备日志
经常检查网络设备的日志,分析设备状况。我曾经通过检查设备日志观察到一变电站交换机的业务VLAN 在一时间down 掉,然后在另一时间又up。因该变电站计算机很少有人使用,单位人员未感觉网络中断,在此期间我们检查并确定了设备、网线、交换机配置、交换机端口均正常。后来又出现长时间down 掉,由此我们立即该光路存在有故障,后经通信专业人员检查,发现该变电站的光纤配线盒的法兰头出现接触问题。经过更换问题得到长久的解决,从而减少了出现故障的隐患,并在最短时间内恢复网络。
3.3 替换法
替换法就是使用一个工作正常的物体去替换一个工作不正常的物体,从而达到定位故障、排除故障的目的。这里的物件可以是一段线缆、一个设备和一块模块。这种方法的好处是可以快速的处理故障,从而减少业务中断的时间。通常应急处置都使用该方法。
4 结束语
对计算机网络维护中应建立完整的网络档案,以供维护时查询,做好网络维护日志的良好习惯,尤其是有一些发生概率低但危害大的故障和一些概率高的故障,对每台机器都要作完备的维护文档, 以有利于以后故障的排查。同时,提高网络安全防范意识,提高口令的可靠性,并为主机加装最新的操作系统的补丁程序和防火墙、防黑客程序等来防止可能出现的漏洞等措施,才能把维护工作做好。
关键词:计算机网络;故障排除;方法
中图分类号:G623.58文献标识码: A 文章编号:
1 分析模型和处理方法
1.1 七层的网络结构分析模型方法
我们知道根据ISO 组织发布的OSI (Open System Internetwork)即开放通信系统互联参考模型。计算机网络自下而上分为物理层、数据链路层、网络层、传输层、会话层、表示层、应用层。从这七层结构的定义和功能上逐一进行分析和排查,这是传统的而且最基础的分析和测试方法。这里有自下而上和自上而下两种思路。自下而上是:从物理层的链路开始检测直到应用。自上而下是:从应用协议中捕捉数据包,分析数据包统计和流量统计信息,以获得有价值的资料。
1.2 使用工具分析
工具型分析方法有强大的各种测试工具和软件,它们的自动分析能快速地给出网络的各种参数甚至是故障的分析结果,这对解决常见网络故障非常有效。这里推荐使用的是FLUCK 网络测试工具。但是工具毕竟是工具,在使用过程中难免会出现一些人为的或者设备的误差,会在处理的过程中扰乱处理思路。
1.3 依靠经验分析
在大多数的网络维护工作人员的工作中是在不断的积累处理故障的经验。从而在新的故障发生时依靠平时积累的经验首先对故障做出判断。这种方式虽然在处理一些故障时迅速而且有效,但是容易产生惯性思维。当出现新的故障无法用经验解决时就显得比较棘手。
2 计算机网络故障排除
2.1 根据上面所述, 对于某一台联网计算机上不了网的故障,我们使用网络分层分析法自下而上进行分析。首先要分别确定此计算机的网卡安装是否正确, 是否存在硬件故障,网络配置是否正确在实际工作中我们一般采用Ping 本机的回送地址(127.0.0.1)来判断网卡硬件安装和TCP/ IP 协议的正确性。如果能Ping 通,即说明这部分没有问题。如果出现超时情况,则要检查计算机的网卡是否与机器上的其它设备存在中断冲突的问题。通过查看系统属性中的设备管理器,查看是否在网络适配器的设备前面有黄色惊叹号或红色叉号,如有则说明硬件的驱动程序没有安装成功,可删除后重新安装。另外,要确保TCP/ IP 协議安装的正确性,并且要绑定在你所安装的网卡上。如果重新安装后还是Ping 不通回送地址,最好换上一块正常的网卡试一试。当确保了计算机的硬件设备和网络配置正确后,接着就
要查看计算机与交换机之间的双绞线, 交换机的RJ45 端口或交换机的配置是否有问题。此时我们要Ping 上网计算机所在VLAN 的网关, 不通的话就要分段检查上面所说的各项。最简单的方法是检查双绞线。这里我们使用设备进行分析,用线缆测试仪检测双绞线是否断开。双绞线没有问题,就要查看交换机的端口是否坏了。交换机每一个端口都有状态指示灯以询问一下其它网管人员就可以排除了,如果不放心可以对照查看。交换机的参数配置表也是网络管理员必备的资料之一,并且随着网络用户的变化要不断地修改,检测到此,如果端口指示灯不亮,就只能是端口损坏了,可以把跳线接到正常使用的端口上排除其它原因,确定是端口的问题。这里要补充的一点是,作为一名网络管理员还必须清楚单位的网络拓扑结构。这一点在处理单台计算机的问题上似乎显的不是很重要但是其重要性体现在在处理一批计算机的网络故障。
2.2 一批联网计算机上不了网对于同时有一批计算机上不了网的故障,首先要找到这些计算机的共性,如是不是属于同一VLAN 或接在同一交换机上的,若这些计算机属于同一VLAN,且属于计算机分别连接于不同的楼层交换机,那么检查一下路由器上是否有acl 限制, 在路由器上对该VLAN 的配置是否正确,路由协议(如我局的OSPF 协议)是否配置正确。若这些计算机属于同一交换机,则应到机房检查该交换机是否有电源松落情况, 或该交换机CPU 负载率是否很高,与上一级网络设备的链路是否正常。通常某交换机连接的所有电脑都不能正常与网内其它电脑通讯,这是典型的交换机死机现象,可以通过重新启动交换机的方法解决。如果重新启动后故障依旧, 则检查一下那台交换机连接的所有电脑,看逐个断开连接的每台电脑的情况,慢慢定位到某个故障电脑,会发现多半是某台电脑上的网卡故障导致的。故障通常是交换机的某个端口变得非常缓慢,最后导致整台交换机或整个堆叠慢下来。通过控制台检查交换机的状态,发现交换机的缓冲池增长得非常快,达到了90%或更多。原因及解决方法为:首先应该使用其它电脑更换这个端口上原来的连接, 看是否由这个端口连接的那台电脑的网络故障导致的,也可以重新设置出错的端口并重新启动交换机, 个别时候,可能是这个端口损坏了。
3 故障定位及排除的常用方法
3.1 监控系统分析
通过网络流量监控系统获取告警和性能信息进行故障定位。我们单位使用了深信服网络网管,可以对全单位的网络设备进行管理,平时多观察各端口、各链路、以及各业的流量。当有人反映不能连接至网络或网速很慢时,可通过网管观察计算机与交换机的连接情况, 是否有时断时通的现象,交换机CPU 负载率是否很高,线路流量是否很大。通过观察设备端口状态,分析和观察交换机哪个端口所接的计算机发包量不太正常。
3.2 查看网络设备日志
经常检查网络设备的日志,分析设备状况。我曾经通过检查设备日志观察到一变电站交换机的业务VLAN 在一时间down 掉,然后在另一时间又up。因该变电站计算机很少有人使用,单位人员未感觉网络中断,在此期间我们检查并确定了设备、网线、交换机配置、交换机端口均正常。后来又出现长时间down 掉,由此我们立即该光路存在有故障,后经通信专业人员检查,发现该变电站的光纤配线盒的法兰头出现接触问题。经过更换问题得到长久的解决,从而减少了出现故障的隐患,并在最短时间内恢复网络。
3.3 替换法
替换法就是使用一个工作正常的物体去替换一个工作不正常的物体,从而达到定位故障、排除故障的目的。这里的物件可以是一段线缆、一个设备和一块模块。这种方法的好处是可以快速的处理故障,从而减少业务中断的时间。通常应急处置都使用该方法。
4 结束语
对计算机网络维护中应建立完整的网络档案,以供维护时查询,做好网络维护日志的良好习惯,尤其是有一些发生概率低但危害大的故障和一些概率高的故障,对每台机器都要作完备的维护文档, 以有利于以后故障的排查。同时,提高网络安全防范意识,提高口令的可靠性,并为主机加装最新的操作系统的补丁程序和防火墙、防黑客程序等来防止可能出现的漏洞等措施,才能把维护工作做好。