UPS 异常停机案例分析
数据中心机房供电保障设备中,UPS、HVDC、发电机组等设备均在不同等级的机房广泛应用;UPS、HVDC 电源系统因常年处于运行状态,会出现一些故障;而在线式 UPS 电源因设计电路合理,驱动功率元件容量所取的余量较大,相对来说电源电路故障率较低,而由电池引起的故障率较高。正确的使用和维护好UPS 电池的寿命是降低不间断电源故障率的关键因素。同时还要防范因 UPS 内部控制(接线、软件等) 系统引起的异常停机事故!
下面是一个 UPS 因控制系统异常导致的停机事件,分享一下,希望引起各位运维同行的重视。
故障现象:
电力监控系统突然报出多条告警信息:UPS 异常、UPS 输出屏失电(电压、电流同时归 0)、机房 N 个列头柜失电、UPS 系统 BCB 电池开关跳位等;
现场状况:
值班人员立即到场检查报警UPS,现场状态如下:
1、现场 UPS 输入柜主路、旁路电源开关状态无异常;
2、输出柜各开关处于合闸位置,输出柜失电;
3、输出柜各开关对应机房列头柜失电;
4、报警 UPS 对应蓄电池组开关处于跳闸位置;重合无法合闸;
5、UPS 本体各状态指示灯熄灭,报警灯常亮,同时伴有报警声;
应急措施:
1、立即对UPS 电源各开关状态及电量各参数进行检查, 电源柜三相电源电压无异常,主路、旁路开关均处于合闸位置,电流为 0;将 UPS 输出屏主进开关分闸;
2、按 UPS 本体故障清除键按钮;
3、将UPS 输入主、旁路断路器分闸,静待 30 秒后恢复合闸;此时 UPS 自动转为旁路运行状态;
4、将 UPS 运行状态由旁路供电模式转换为正常整流逆变模式;检查 UPS 输出各项电量参数无异常;此时再将电池组开关由跳位分闸到分位,然后重新进行合闸,开关恢复正常合闸位置;
5、将 UPS 输出屏各开关恢复合闸位置,机房失电列头柜恢复供电;
6、通知 UPS 厂家人员到场对故障设备进行检查,排除故障隐患;
故障原因排查:
UPS 厂家维护工程师到达现场,对 UPS 内部数据导出检查;发现在本 UPS 故障时,UPS 本机发出了紧急停机指令,导致 UPS 停机。随后对 UPS 本体仔细检查,发现 EPO 连线插头未插实!无其他异常现象。
结合现场实际情况:
1、UPS 电源柜主、旁路开关状态正常,输出中断,BCB 电池组开关跳闸,无法手动恢复合闸状态;
2、UPS 设备本体主、旁路输入回路锁死;
3、UPS 设备市电输入主、旁路分(UPS 本体断电)合闸后,UPS 自动恢复旁路运行模式;
4、手动启动逆变器,UPS 切换至主路逆变供电状态;
5、合 BCB 电池开关操作成功。
以上现象符合EPO 动作后紧急停机特征,故本次故障可判定为UPS 因内部错误指令导致停机故障。
后续改进措施:
UPS 是设备是供电可靠性的最后一道保障,为保障数据中心供电安全可靠,维护团队举一反三,防止类似问题再次发生。
立即对所有 UPS 运行安全隐患进行检查:全面检查UPS 运行环境,检查风扇运行情况,确保 UPS 散热条件满足要求; 检查 UPS 电池运行状态,确保电池具有后备保障能力;检查各 UPS 的内部EPO 接线情况,防止类似故障再次发生。