控制工程师论坛

工业以太网

以太网故障如何排除

hypermill9
hypermill9

2011-11-21

根据经验发现大多数网络故障是与硬件有关的:比如电缆、中继器、Hub、Switch和网卡等。本文描述了以太网典型故障的查找过程。 
   一、故障查找的一般规则
   以太网的故障查找可分为5个步骤:
   1.收集所有可以收集到的有价值的信息,分析故障的现象。
   2.将故障定位到某一特定的网段,或者是单一独立功能组(模块),也可以是某一用户。
   3.确认是特定的硬件故障还是软件故障。
   4.定位与修复故障。
   5.验证故障的排除。
   一般来说,最好的办法是先把故障细分或隔离在一个小的功能段上,即首先排除最大的简单段,从任何一个方便的、靠近问题的站点入手,利用二分法隔离故障,再继续使用二分法直至把故障划分到最小的单位。网管人员不要过多指望用户会给出完整准确的情况描述,最好由自己来确认一下。当然也可以让用户演示所发现的问题。由于网络故障带来的压力和混乱,人们经常忽略一些细节问题。如果某个部件出了问题,最好不要立即去替换它,除非能肯定故障的来源。
   二、故障查找应注意的事项
   由于以太网采用通用总线拓扑结构以及物理层可扩展的潜在问题,所以某个特定物理层的问题会以不同的方式显示出来,而且由于采用的测试手段、位置和环境不同,显示出的现象还常常有矛盾。
   为了避免被假象误导,推荐两个故障查找的步骤:
   1.沿网段多做几次测试
   如果故障现象随测试点的不同还保持一样的话,就可以依照所测试出的故障现象去排除。如果故障现象在一些或所有的测试点都不相同的话,就要把查找故障的方向定在物理层(除非有特别提示),例如去查找坏的电缆、噪声环境、接地循环等故障。
   2.要提高测试质量,在测试的同时要把测试仪器设置成至少可同时发送较低的流量。由于增加了网络流量,微小的和间歇性的物理层问题会被暴露出来。
   三、典型的网络故障
   故障1、不能访问服务器或某项服务
   在这里设定服务器或某项服务以前是正常的,并且已经做过如下的工作:
   重新冷启动PC机(热启动不能复位全部的适配卡)。
   确认PC机没有本身的硬件故障。
   确认所有的网络电缆都连接正确。
   确认所有的网卡驱动软件都正常地装入,没有报告错误。
   确认服务器或服务没有改变,比如重新配置增加硬? 软件。
   要测试一下这一故障是否只影响该工作站(本地故障)还是会影响其它站点(大范围故障),可以通过其它工作站装入服务器或服务来证明这一点。这些工作站要在同一网段或Hub上。如果故障在同一网段或Hub上的其它的站点也存在,就试着从其它的Hub或网段上的站点进行测试。
   (一)本地故障
   在进行硬件故障查找以前,要确认其它用户也不能登录从这台机器上,这就排除了用户帐号的错误。对一个单一的站点来说,典型的故障多发生在坏的电缆、坏的网卡、驱动软件或是工作站设置的不正确等问题上。
   (二)全局问题
   通常来说,在同轴网中的物理层故障会导致灾难性的网络故障。使用“二分法”来查找这类故障是可以很快定位解决的。间歇性的故障是比较难以隔离的。
一半的问题来自于电缆
  (1)目测连接性
      检查连接性常用的方法就是检查Hub、收发器以及近期出产的网卡上的状态灯。如果是10BASE5的电缆,要仔细检查所有的AUI电缆是否牢固地连接,划锁要同时锁牢,很多问题只要简单地把未接牢的部分重新紧一下就解决了。
  (2)受损的电缆或连接部件
      在你检查物理层的问题时,要注意受损的电缆,不正确的电缆类型(比如在以太网上用RG62或RG59),未打好的RJ45头,未按牢的BNC头。对怀疑有问题的电缆可以用一般的电缆测试仪进行测试。
  (3)连接脉冲极性问题
      无论是NIC还是Hub的连接脉冲极性都可以用测试测出,连接极性故障通常是由电缆的接线错误引起的。
  检查链路层的问题
  (1)碰撞问题
      如果平均碰撞率大于10%或是观察到非常高的碰撞,就需要进一步的测试了。如果可能,试着通过减少网段规模(将网络分成小段)并随时监测碰撞的变化以隔离出发生问题的区域。为了跟踪碰撞情况,就必须知道网络的流量。可以使用背景流量发生器来加入适量的流量(100帧/秒、100字节长的流量),并同时观察网络的统计显示。某些和介质有关的故障是与流量的大小成正比的。可以用控制键改变流量同时观察碰撞与错误的改变。这种做法要特别小心,因为你很容易给网络加入很重的流量。解决与碰撞有关的问题常常是很费劲的,因为测试的情况在很大程度上取决于观察的位置。也许在同一网段相距几尺远的不同观察点所看到的情况就不同,要多找几个点来测试并留意所发生的变化。
      如果碰撞与流量成正比,或碰撞几乎是100%,或几乎没有正常的流量,则可能是布线系统出了问题。对于UTP的布线,可以在Hub上断开电缆然后进行电缆测试。对于同轴缆就要进行阻抗测量,可以使用数字表或其他仪表的直流通断功能进行测试。如果电缆两端都有端接器,从T型接头应测得大约25 ,如果从电缆的一端将会测得50 。
  (2)帧级错误
      如果出现帧级错误,你就要运行错误统计测试,并通过详查功能把有问题的工作站的MAC地址找出,然后经过测试把故障确定下来。可以试着将驱动程序用“干净”的原盘重新装入工作站,要确认各项配置完全。如果这一切仍不奏效,可以试着把有疑问的网卡换掉。
  (3)利用率过高
      如果利用率过高(平均值大于40%,瞬时峰值高于60%),那么网段负荷就过重了。应当考虑安装网桥或路由器以减少在网段中的流量或把网段分成若干小的网段。
  客户服务器连接的完整性
      如果在链路层上是完好的,那么我们就要来看一下协议方面是否有什么问题会影响服务器与客户之间的通信。
  (1)连通性
      使用专业仪表,你可以运行Server List或Novell Ping测试功能,用来验证从测试点是否可以访问服务器或服务功能。如果服务器没有回应,重新冷启动服务器并注意观察所有所需的驱动软件是否正确加载,有无错误提示。Novell的3.11版本及以前版本,在缺省配置使用802.3RAW的打包,而3.12及以后的版本在缺省配置时都使用了802.2的打包类型。
      另外也可试着对服务器进行几次Ping测试,要确认请求信号与返回的响应信号数目相等,结果不一致则表明有时好时坏的网卡或Hub的故障导致帧的丢失。临界状态的和已坏的桥或路由器也可以用此方法很快地定位。
  (2)服务器或服务的可达性
      如果使用协议分析仪,就要捕获3至4分钟的数据包来分析。看一下是否有从服务器发出延时请求,并找出是哪个服务器,如果有延时请求,则表明服务器不能完全处理所加载的任务,每一个延时请求作废一个任务请求。
  (3)网络响应慢或性能差
      首先,要确定一下是否是与网络介质有关的故障,是一个工作站的问题还是一个服务器或是服务的问题。从其它工作站去访问同样的服务器或服务,并询问本段网络或其它网段上的用户,如果问题不是与介质有关的,要确定问题是否是软件有关,检查网络利用率和软件错误来查找性能差的网络问题。
      运行诸如网络统计这样的测试,看一下是否有高流量和不正常的高碰撞存在,在增加背景流量后再运行一下这些测试。如果发现碰撞和PCF错随着流量的增加而增多话,你就应运行电缆测试来检查工作站的连接性。
  碰撞问题
      如果碰撞较多,要算一下有多带宽被碰撞损失了。把本地和远端碰撞的损失都加起来,如果平均碰撞的值大于5—10%,就要进行进一步的故障查找。同样要检查一下碰撞是否是突发的,也就是说碰撞明显地增多不是因为流量明显增大引起的,如果是这样就意味着某处的物理层出现了比较严重的问题。在碰撞与流量之间应是有一定的关系的。这种关系应当在做网络参照基准测试时收集到。如果碰撞始终是比较多的(但仍是可以接受),可能是太多站点同时在参与发送,或者网络结构应做一些优化使近距离的站点分在一起。过多的碰撞最常见是与介质有关的故障导致的。比如:不正确的端接,特性阻抗不连续(坏接点、残留支缆、残破线缆)等和坏网卡。
  硬件故障
      如果出现帧错误,利用专业仪表可以找出错误帧的来源。此后的工作就是在Hub口、网卡和电缆中隔离出特定的故障,如果故障是间歇性的,就替换掉有怀疑的网卡。检查一下服务器/服务是否接在广域网路由器的远端。如果是这样,就用Ping测试来测一下响应时间并与基准测试比较一下。为了保证没丢失帧的情况就要连续运行多次的Ping测试,检查测试请求包与响应包是否相等。如果不相等,远端的介质或互连设备(网桥、路由器等)就有可能是容量问题或有故障。丢帧也是电缆故障之一。比如:UTP布线中的线对串绕和同轴缆由线的环地故障。如果怀疑有丢帧就进行电缆测试。测试接在反应慢的工作站的电缆,也要测一下服务器方向的电缆。
  过载的网段
      如果利用率很高(持续峰值超过60%)而碰撞又可以接受(平均碰撞小于10%),那么网络就饱和了。这时就应该增加网段或用路由器把网段分成较小的可以支持正常流量的网段。
  软件故障
      运行网络统计测试,如果是高流量,低碰撞,而且有一点错误帧,就先确定发出错误帧的站点。也可以由繁忙站点测试来找出有问题的站点。到该站点现场来查看该用户在做什么。要问明在非高峰时间用户在干什么或把这个用户移到其它网段上,以改善本网段上的其它用户工作情况。如果利用率、碰撞、错误帧都低,要询问抱怨网络性能不好的用户是使用哪个服务器和哪个应用软件。检查该服务器是否处在高负载状况下,它和网络的利用率是不同的概念。要找到使用这个服务器资源最多的用户,这可以用服务器上的用户监测功能或协议分析仪来完成。
      无论是网络流量高或低时发生的问题,如果是碰撞很少而且是没有帧错误,这类问题多出自应用软件或与文件服务器有关。服务器可能是Cache设置的太小,保留的缓冲不足,服务器内存不够,服务器硬盘所余空间有限,8-bit网卡等等,这也可能是另一类软件问题,他们可能造成不正常的“网络磁盘请求”,这时有必要将某一应用移到另一个服务器上,要么升级现有的服务器,要么再加入一个新的服务器。
回帖

评论0

首页 | 登录 | 注册 | 返回顶部↑
手机版 | 电脑版
版权所有 Copyright(C) 2016 CE China