人机界面的死机现象及处理办法
-
-
weichangbo
2008-01-22
DCS死机现象有两种:人机界面死 机、控制器死机。前者比后者损失要小。控制器死机是I/O卡件安排太多或存储器容量不够,一旦控制器程序运行到某一位置,就停留在该位置,程序不再往下走,即使重启也无济于事。
人机界面(主要是操作站)死机现象所有DCS都不同程度地存在,只是频繁程度不同。另外与DCS使用时间长短有关。因硬件引起的死机,显示不再能恢复。如操作站电源电压偏低,很容易使操作站死机。由于软件和通信连线的速率选择不合适引起的死机现象经一段时间仍能恢复。操作站操作系统与监控软件磨合不好也能引起死机,对此维护人员毫无办法,称为原发性死机。由于某些配置不合理引发网络堵塞、内存太小等原因造成的死机,过几分钟后自己能恢复。
本文讨论的仅限于因系统、网络配置不合理等原因引起的死机现象,推荐一些处理办法。
一 DCS人机界面的死机现象
近来,由于MIS系统需从DCS中读取生产实时数据。在网络中接进动态数据服务器,有的采用DDE方式,在读取数据较多情况下(如3000点),由于DDE消耗资源较多,网络堵塞现象就变得十分频繁,并使得各种人机界面的节点死机现象变得严重。
网络堵塞现象的严重程度与多种因素相关。从操作站取数据,采用DDE方式,如果取的数据在500点以下,问题还不算太大。如果取几千点数据,操作站死机几乎是必然的。如果把节点连到DCS的通信网络上,从网络接口取数据,情况要好一些。
控制器把数据送到接口,人机界面从网络接口读取数据应遵守网络通信协议。网络物理结构有环型和总线型两种,总线网络在逻辑上也是环型的。星型网络只用于小系统(100个I/O点内)。常用通信协议是广播式,网络上的节点只要把数据送到网络上,它就要不断广播数据,需要数据的节点就接收数据。广播式协议的网络除这种方式外,还有一种方式:一个节点向网上其他节点问询数据,如其他节点没有,它就反复进行问询直至读取到这个数据。如果网络上根本没有这个数据,就会造成网络堵塞。
为使运行人员熟练DCS操作站的操作,可采用仿真系统,了解DCS的键盘,以减少误操作引起死机;也可了解操作站死机情况。
在DCS运行时间较长的情况下,组态只加不减,有一部分组态实际上已没有与真正的I/O点相连,与控制无关。在工程师站的用户应用程序中有这样的I/O点。动态数据服务器接入时,欲将DCS上所有数据点都读上去,因其中有大量数据点无效而造成网络堵塞,所以人机界面就发生死机。这时可用逆向工程师站读取控制器中的组态,与正向工程师站的内容进行比较,删除无效点,就可避免网络堵塞。
另一个应注意问题是在接入动态数据服务器时,应检查所有接口的软件版本是否一致,否则会影响数据传递。
解决网络堵塞的第三种方法是:如果采用例外报告方式,可加大例外报告区域以减少网络通信量。例外报告是指现场某点只在发生变化时把数据送到网络上。为防止点已坏而人机界面未知的情况,即使点不变化,超过一段时间也要报告。为减少网络上的通信量,把例外报告的两个参数都适当加大,也能达到减少数据量的目的。
最近推出的通用操作站多采用Windows NT/2000操作系统,监控软件也通用,如FIX、InTouch等。由于软件销售量大,存在问题较少,通用操作站开放性好,死机现象大大减少。如果驱动软件不太好,也会引起死机。重要的是,它无论维护成本、备件采购都不受DCS制造厂家的限制。但为防黑客、病毒侵入,防火墙不可缺少。
二 C/S结构的人机界面的死机现象
1. C/S结构
DCS人机界面采用普通PC、Windows操作系统以后,为增加人机界面数量,采用C/S结构,只要控制器上通过接口与服务器相连,服务器和客户机上使用网络接口适配器用电缆连接,就成为C/S结构。
客户机共享服务器的资源。服务器通常安装在安全场所,保存DCS控制器送来的最有价值的现场生产数据。图1示出客户机和服务器的连接关系。
作为服务器的计算机可能同时为几台或十几台客户机服务,所以服务器须要具有比客户机更快的处理器、较大的内存和更大的存储空间。
客户机是标准的PC运行Windows操作系统,仅与服务器通信,不和其他客户机通信,有自备软件包。在作DCS操作站时,服务器和客户机可运行同一监控软件,以便共享服务器资源。两者所装软件的区别是服务器应有DCS控制器驱动软件而客户机不需要。
还有一种情况是,在服务器监控软件上安装OPC服务器,在客户机监控软件上安装OPC Client,客户机就可访问服务器。如在服务器上不需用图形方式观察现场设备运行情况,在服务器上也可不安监控软件,而只安OPC服务器,只是在查找故障时,才需要显示器。
采用C/S结构可节省DCS昂贵的网络专用接口。为系统可靠运行,采用双服务器冗余运行,这就是双机双网。一个系统最多用到两个专用接口。
最终用户反映,采用多个接口的多主站结构较好,原因是服务器和客户机安排不合适容易死机。如INFI90的Conductor NT和Honeywell的GUS在版本较低情况下都容易死机。
2. C/S结构死机现象的产生
C/S结构网络的两种硬件,通常称为客户PC和服务器。客户PC在中央控制室,而服务器放在安全的地方。DCS操作站死机的原因错综复杂。本文仅限于分析由于采用C/S结构引起的死机原因,有两种情况:
网络的连接线和选用不合适的网络适配器
控制器、服务器和客户机三者之间的连接有两种情况:一是DCS控制器有以太网接口,三者用以太网交换机来连接。交换机有多种端口,每个端口数据传输速率可以不等。端口数量由连接的计算机台数决定。交换机主要指标是背板宽度和存储器大小。如果采用以太网电缆如10BASE、100BASE等的速率都可传输,如采用5类线只能是10BASE。在图2以太网的连接是星型。使用离散的电缆将每台计算机连接到中央连接点,通常称为网络集线器。每台计算机使用独立电缆,连接失败只影响有关的单台计算机,其他计算机可继续运行。如果各台机器适配器速率相同,以太网星型连接通常使用10BaseT电缆。
控制器把信息送给服务器,客户机从服务器读写数据,由于客户机数量较多,如果它们之间采用一样的连线就可能死机。各台客户机从服务器读取的数据可以一样,也可以不一样。也可以是所有客户机显示内容一样,多台操作站冗余运行。每台操作站与服务器交换的数据较多,可采用100BASE端口,服务器和控制器数据交换较少,该采用10BASE端口,客户机之间基本不交换数据,也可采用10BASE端口。如果不这样,很可能产生客户机死机。
客户PC和服务器的配置不合适
客户PC的配置取决于准备使用的操作系统。如DOS和Windows 3.1只要8MB内存就可运转,而Windows 9x至少要16~32MB,Windows NT最少要32MB,最好是64MB,特别是Windows 2000,更需要64MB内存。除内存外对Windows 2000来说,应采用更快的处理机和更大空间的硬盘。
在选用客户PC时,虽然可以比服务器的机器差一些,但内存一定要比上面的要求还高一些。因为机器除运转操作系统以外,还要与服务器读写数据。
服务器的CPU和硬盘驱动器承受网络上所有客户机的服务请求。服务器需要大量存储器,比客户机存储器容量要高得多才行。
最好知道主板上存储器插槽数目和支持的最大内存数量。检查随DCS服务器来的存储器是如何配置的。单条64MB DIMM机器比用16MB模块插满4个插槽的机器更容易升级。
服务器最好采用支持ECC内存的存储器。当ECC存储器与一个支持ECC的主板芯片组一起使用时,可纠正单个位存储器错误和检测多位存储器错误。
硬盘驱动器对于服务器也很重要,连在网上的计算机都共享服务器文件,硬盘驱动器应耐用、可靠和适用于同时为多个用户服务的。因此,采用SCSI硬盘驱动器较合适。SCSI驱动器有智能和较快的转速,采用UtraWideSCSI时从驱动器到系统间有极高数据传输率。无论是IDE硬盘驱动器还是SCSI硬盘驱动器,都可采用RAID技术,能更安全地保存数据,提高服务器质量。SCSI总线可连接多台硬盘驱动器,采用一台9GB的硬盘驱动器没有9台1GB的SCSI硬盘驱动器的效率高。
市场上有一种磁盘阵列,专为服务器设计,是一种海量存储器产品。硬盘驱动器阵列可装入大量驱动器,用磁盘镜像或RAID提供容错,自动将服务器数据的多个拷贝存储到不同硬盘驱动器上。当驱动器发生故障时,所有数据依然对用户有用。有些阵列驱动器甚至可热交换,能在机器运行时更换故障。
服务器使用的RAID最好版本是RAID5,能为所有现在版本的C/S网络操作系统所支持。RAID5数据“分析(stripes)"到多个SCSI驱动器上,使单个损坏驱动器上的内容可以从阵列中其他驱动器的信息里重建。当一个带热交换驱动器和供电的服务器结合在一起时,RAID5可使服务器以接近连续的24×7正常运行。
如果DCS不是采用C/S结构的操作站,因各个操作站互相独立,只保存一部分数据,如果是冗余配置,可靠性已很高,就不一定采用RAID技术。
DCS操作站为文件备份,可在操作站上安装一个SCSI磁带驱动器。采用C/S结构的,在服务器上最好安装磁带机,可把用户组态的应用软件拷贝在磁带机上。操作站或服务器发生故障时,能把应用程序重新输入。磁带机产品更新也较快,1990年左右进口DCS配备的磁带机现在已买不到备件或磁带,新老磁带机和磁带不兼容。
S9000系统控制器由两部分组成,一块3C905卡完成模拟量控制,另一块PLC主机LPM620-0072,主机上有以太网口,它在组成系统时,采用以太网连接,组成C/S结构。以太网连线有两种方式,在客户机较多情况采用集线器连接。
如果只用1~2台操作站和1~2台控制器就把所有操作站、控制器连在公共电缆上,网上连接设备很少,也可以采用T型连接器。
服务器比客户机包含更多驱动器,还需考虑它的电源功率和可靠性。电源很容易被忽视,如忽视电源直流输出是否稳定,还有噪声、杂散信号、尖峰脉冲和浪涌。电源是最容易出故障的部件之一。电子线路采用+3.3V或5V,硬盘驱动器和风扇采用+12V电压。
有以太网的网络适配器,也有其他网络适配器,但都不如以太网用得多,所以价格也高。采用以太网能降低DCS成本。
三 容易产生死机的系统实例
设计一个系统,操作站采用C/S结构,连线如图3所示。如配置8台操作站,2台服务器,下位是4台S9000控制器,需要在操作站中显示的I/O点数为2000,控制器和服务器通过以太网通信。控制器、服务器和控制器的物理连线是通过16端口的集线器(Switch Hub)。16端口集线器的速率缺省值是100BASE。如果服务器和操作站的适配器是10BASE,服务器和客户机的内存都是64kB,系统运行后死机现象较严重。
把服务器的一块适配器换成100BASE,客户机仍采用10BASE网络适配器,把服务器内存增加到256kB、客户机增加到128kB,情况改观很多。
从实际情况看,服务器和操作站死机原因与服务器内存容量关系很大。64kB的内存是最基本的,它的内存应该与操作站台数有关。运行情况表明,增加一台操作站服务器至少需要增加10~30kB内存。服务器内有两块网络适配器,与控制器通信的采用10BASE,与操作站通信的采用100BASE,操作站可以采用10BASE的适配器。连线采用普通电缆。
如果服务器软件和操作站软件是fix,原来S9000的操作站就是采用该软件,操作系统是Windows 3.2,死机情况不太严重。目前S9000系统监控软件是专用的,该软件可能还有一些BUG,再加上网络、内存配置不太合理,死机现象十分严重。
客户机应该组态的那一台服务器是主服务器,另一台是从服务器。否则,当一台服务器发生故障时,另一台服务器不能很好工作。如果有3服务器的话,组态更是重要。