本文来源于山西某煤业真实案例。
在全球工业化大生产的今天,工业控制系统在制造业、能源、矿山、国防等众多领域都被广泛应用。
工控网络系统对大数据量、持续、高速率、稳定传输有很高的要求,这催生了以太网与控制网络的结合。工业控制系统网络化浪潮又将诸如嵌入式技术、多标准工业控制网络互联、无线技术等多种当今流行技术融合进来,从而拓展了工业控制领域的发展空间,带来新的发展机遇。
工控网络对低时延、传输稳定性、信息及数据安全性有非常高的要求,并且由于应用环境的特殊性,往往要求快速处理,否则可能会造成不可挽回的经济损失,甚至危及生命。
目前,煤炭行业已经逐步实现数字化矿山的改造和建设,其中地面工业以太环网、井下工业以太环网及调度中心网络,将井下和地面系统连接起来,共同构成煤炭的生产网络,承载了整个工业生产系统的数字化任务。
对于煤炭行业这种生产空间大、生产过程复杂、安全责任重大的行业来说,工控网络的运维不仅限于实现网络内正常的通信,更需要对作业情况及工作环境进行实时监控分析,掌握工业网络的运行状态。一方面是基于生产安全的重大责任,一方面是生产效率的高效要求。当工业网络发生故障时,快速定位问题根源并解决问题,就是在与时间竞速,与生命赛跑。
背景描述
2020年某日,某煤矿的安全监控系统突然瘫痪,其中环境监控系统中井下生产环境气体瓦斯、一氧化碳等气体数据、通风风机状态信息停止更新,与此同时监控分站无响应,整个网络时断时续,环网接入器无法进行远程管理,原因不明,情况十分紧急。
井下生产环境千变万化,数据停更等于人们对地下几百米深的作业环境一无所知,意味着对全局失去控制,一旦出现有害气体聚集将会直接危及井下数百名工人的生命,后果不堪设想。煤矿调度中心立即启用应急预案,一方面紧急疏散井下全部人员,同时要求技术人员立即找到故障原因并解决问题。
技术人员依靠经验初步判断:问题可能是由物理环路或交换机环网协议冲突导致。但得知专网管理近期未曾进行变动,井下环网交换机配置也并无异常,这让技术人员一时失去方向。
井下环境监控系统告警
分析过程
复杂的网络环境下出现传输异常是很难快速精确定位问题根源的,时间紧迫,面对仍然时断时续的网络,技术人员决定通过网络流量为判断依据寻找问题根源,“流量不会说谎,记录着一切真相”。
在询问工作人员拓扑结构及网段后,技术人员调取科来网络流量分析设备存储数据进行分析。
网络流量采集拓扑图
首先通过对调度台专网环交换机的检测,排除物理环路故障,同时未发现STP生成树动荡问题,但是在科来流量分析主界面却发现存在异常流量:地址为10.95.X.XXX主机向网络10.95.X.XXX发送大量广播包,平均每秒高达47.5Mbps(如图1所示)。
图 1
此矿区安全监控系统主备机以及交换机管理网段统一都在10.95.3.X网段,广播将会使所有在同网段终端每秒接收近50Mbps的广播流量。技术专家与现场工作人员协调找出10.37.3.XXX故障主机并进行断网,但对此台设备关机后,问题依旧(如图2所示)。
图 2
MAC对应交换机端口
技术专家进一步通过科来设备定位发包主机IP对应的MAC地址,再通过登录网络交换机查询MAC地址表,找出MAC对应交换机端口并将对应端口关闭,安全监控系统恢复正常,同时要求现场人员继续针对交换机端口连接问题终端进行后续处理。
针对案例中存在IP地址伪装行为,建议对全网终端设备进行安全加固;同时建议日常网络管理使用科来网络流量分析系统进行网络流量监控,建立流量基线,通过对网络全局监控降低生产安全风险。
价值体现
工业网络的本质是在生产全流程中稳定、高效、不间断的传输各种信息,稳定的网络供给和出现故障后的及时处理缺一不可。科来凭借多年来对工控协议的研究和理解,结合在流量分析领域对网络故障深入到数据包级的可视化分析,帮助运维人员精准定位问题根源,迅速恢复安全生产。