事故现象:有时RPU A不能被其他网络设备访问,从其他主机或RPU板上PING RPU A,不通。RPU A自己PING自己,也不通。RPU板复位后,恢复正常。此问题偶然出现。
问题分析步骤:
首先分析造成RPU板网络不通的原因通常有以下几种:
A) 物理连接的问题(如网口坏);
B) 以太网设置为自环工作方式;
C) 以太网链路层协议有误,Ethernet II、SNAP不一致;
D) MAC地址非法(如为广播地址或首位不是偶数等);
E) MAC或IP地址与其它网络设备重复;
F) IP协议设置为不转发;
G) 设置了防火墙;
经过检查,可以完全排除A、B、C、D、E、F这几种原因,而以太网口也没有设置任何防火墙规则,默认的包过滤设置为允许通过。但不能排除是防火墙的原因。
为了验证是否是防火墙造成的,打开RPU A的防火墙调试信息。果然,发现是防火墙有限制,采用了防火墙规则2,该规则限制访问网络设备。
可是以太网口的防火墙没有配置任何规则,从理论上来说,它应该只适用规则0,即默认规则。是什么原因使以太网口采用了2号规则呢?
进一步观察调试信息,发现以太网口所分配的内部用户号为49!这时我们想到防火墙所用的内部用户号可能与DMU通道号有直接对应关系。经过试验,果然发现对应普通拨号来说,防火墙内部用户号就等于用户所占用的DMU通道号。
这时,把RPU板上的所有DMU通道闭塞,只保留49号DMU通道,用户拨号上网,让它占用第49号通道,并使该用户采用第3号防火墙规则。这是,以太网口同样也该为收第3号防火墙规则限制。
最后,我们从头重复一次刚才的过程:
1、复位RPU板后,用户没有拨号上网,RPU板以太网口所采用的防火墙的内部用户号为49,采用第0号防火墙规则。
2、第49号MODEM有用户上网,且该用户采用的防火墙规则为X(0<X<=50),则以太网口防火墙规则也相应为X。
至此,问题已经查明,防火墙对以太网口处理不当,不应该分配内部用户号为49给以太网口,以致与第49号DMU通道形成不应有的关联。这给系统运行带来极大隐患。
-
-
-
xilinxue 发表于 2008/11/7 13:20:29
数据通信某产品,在进行终端并行测试的过程中发现一很奇怪的问题。先通过TELNET或NETTERM登录到主机系统上,然后在两个TELNET终端同时以大包PING主机,PING XXX。XXX。XXX。XXX ,包长为1000个Bytes,其中一个终端收到两个应答后,不再有任何反应,另一个终端收到一个应答后,显示超时,此后不再有任何反应。重新TELNET登录,还可以登录一个TELNET终端,但试图再登录第二个TELNET终端失败(此系统共支持3个TELNET终端)。测试人员怀疑此前登录的两个TELNET任务已经死掉。于是通过超级终端登录到串口,打开TRACE信息,TRACE信息显示当前已有3个TELNET任务处于运行状态,但实际上此时已只有一个TELNET终端可用,另两个TELNET终端已经没有反应了,而且确定再没有其它人登录到此交换机系统上,至此,确定是前述两个TELNET任务已经死掉。但是,在与开发人员一起重现此问题时,奇怪的现象发生了,在有的机架上重复上述测试步骤,问题每次都能重现,而在有的机架上重复上述测试步骤,却非常正常,没有任何问题。开发人员仔细检查程序也无法发现问题症结所在。此问题持续多日无法解决。最后,经众开发人员会诊,怀疑是pSOS系统配置的问题,经比较两个产生不同现象的机架上pSoS系统的系统配置文件,发现其中关于pNA+的Buffer配置部分,某些配置不同。将配置改为无问题的机架上的系统配置后,进行测试,问题消失。若恢复原配置则问题重现。因此,此问题最后确定为系统配置有误。2楼 回复本楼
由此案例,我们可得到一个经验,那就是,当系统在不同机架上运行现象不同时,除考虑其它可能原因外,还应考虑是否操作系统配置不当。另外,此问题还带出了一个附加的问题,那就是,我们的版本管理存在较大的问题,同为测试机架,但不同的机架上运行的程序版本却不一样。
引用 xilinxue 2008/11/7 13:20:29 发表于2楼的内容
-