通信传输设备故障汇报处理流程
一、华为传输设备
(一)当TMS中发现根告警所属系统为青海华为SDH传输系统时,根据告警原始原因分为以下几种处理情况:
1、R_LOS(接收线路侧信号丢失告警)
(1)TMS告警定位查看流程:
当告警原始原因为R_LOS时,查看告警对象为XX站点XX设备X槽XX网元号XX框XX槽XX板XX端口,右键此条告警选择告警定位后进入传输拓扑图,若能直接定位到网元可直接双击进入设备面板图查看告警,若无法定位,点击分层加载图标将所有网元加载完毕后,在搜索一栏输入站点名称,选择告警对象中的网元型号进行定位,选择网元双击直接进入设备面板图,双击告警对象中的槽位进入板卡试图,选择告警对象中的端口查看对端站点设备槽位及端口。
(2)R_LOS告警描述及原因:
告警描述:R_LOS告警表示线路接收侧信号丢失(Receive loss of signal)。该告警产生后,业务中断,并向下游下插AIS信号。产生该告警后,系统会自动向上游站点回告MS_RDI,上游站点会产生MS_RDI告警。
告警原因:
①断纤(干线光缆故障或局间光缆故障引起);
②连接件故障(与该单板相连的波分系统的连接件,连纤);
③线路衰耗过大或光功率过载;
④对端站发送部分故障,线路发送失效;
⑤对端站交叉板故障或不在位;
⑥对端站时钟板故障;
⑦本站接收部分故障(本端SDH设备的连接件,连纤,单板)
⑧对端站设备停电。
(3)告警通知流程:
①当告警对象站点设备与对端站点设备为同一管辖范围,调度值班员通知相关管辖运维分部生产值班员核查告警原因,并告知在45分钟之内反馈告警原因及影响的重要业务(保护、稳控、自动化、调度数据网、视频会议、广域网)。
②当告警对象站点设备与对端站点设备不在同一管辖范围时,调度值班员应查看告警对象站点设备和对端站点设备是否同时发生R_LOS告警,若同时发生R_LOS告警,调度值班员通知两个站点相关管辖运维分部生产值班员核查告警原因,并告知在45分钟之内反馈告警原因及影响的重要业务;若对端站点设备未发生R_LOS告警,调度值班员通知告警对象设备管辖运维分部生产值班员核查告警原因,并告知在45分钟之内反馈告警原因及影响的重要业务。
③故障通知规范用语:调度员:xx部门生产值班吗?我是信通调度员xxx,现在进行故障通知,请记录。xx年xx月xx日xx时xx分,xx站点xx设备xx槽xx端口发生R_LOS告警,对端为xx站点xx设备xx槽xx端口,请尽快核对告警原因,及时处理设备异常,45分钟内向调度汇报异
常的初步原因及影响的重要业务。
(4)告警定性确认流程:
相关运维分部生产值班员反馈告警原因及影响的重要业务后,调度值班员进行告警定性,右键此条告警选择告警定性,由于国网对故障缺
陷有考核,一般告警定性为用户原因或误告,用户原因填写模板为:XX
站点华为传输设备XX槽XX端口发生R_LOS告警,原因为对端站点停电
或对端新投运设备调试;若此条告警时间不是当日的时间或者此条告警
重复上报,则定性为误告,误告填写模板为:历史告警重复上报。
(5)故障汇报及协调流程
①当相关运维分部生产值班员反馈告警原因为断纤、线路衰耗过大
或光功率过载、单板故障、设备故障、通信电源故障等原因,调度值班
员及时向技术发展部汇报故障情况及影响的重要业务,并且及时通知通
信运检分中心及相关运维分部进行业务迂回工作,确保“先抢通、后修
复”的原则。待相关运维分部故障处理完成后,调度值班员要求相关运
维分部在24小时之内将故障处理报告反馈至调控中心及技术发展部,调
度值班员及时向技术发展部汇报故障处理完成情况,最后调度值班员在
TMS中做好工作记录,形成闭环管理。
②当相关运维分部生产值班员反馈告警原因为对端站点一次停电、
对端站点为新投运站点设备调试、无业务运行等原因,调度值班员在TMS
中做好工作记录,形成闭环管理。
③工作记录模板:xx年xx月xx日xx:xx分,调度值班员监控发现xx
站点xx设备xx槽xx端口发生xx告警,调度值班员通知xx运维分部生
产值班员xxx,xx:xx分xx生产值班员xx反馈故障原因为xx,主要影响
业务为xx; xx:xx分调度值班员向技术发展部xx汇报;xx:xx分xx运维分
部反馈故障恢复正常,xx:xx分恢复正常;xx:xx分调度值班员向技术发展
部xx汇报故障恢复正常。
2、R_LOF(接收线路侧帧丢失告警)
(1)TMS告警定位查看流程:
当告警原始原因为R_LOF时,查看告警对象为XX站点XX设备X槽XX网元号XX框XX槽XX板XX端口,右键此条告警选择告警定位后进入
传输拓扑图,若能直接定位到网元可直接双击进入设备面板图查看告警,
若无法定位,点击分层加载图标将所有网元加载完毕后,在搜索一栏输
入站点名称,选择告警对象中的网元型号进行定位,选择网元双击直接
进入设备面板图,双击告警对象中的槽位进入板卡试图,选择告警对象
中的端口查看对端站点设备槽位及端口。
(2)R_LOF告警描述及原因:
告警描述:R_LOF告警表示线路接收侧帧丢失(Receive loss of frame),当本站光口接收侧连续5帧没有接收到正确的A1A2字节时就会上报该
告警。该告警产生后,业务中断,并向下游下插AIS信号。产生该告
警后,系统会自动向上游站点回告MS_RDI,上游站点会产生MS_RDI
告警。
告警原因:
①对端站发送功率异常或信号无帧结构(对端站连接件、连纤、单
板故障);
②本站接收方向故障(本端站连接件、连纤、单板故障)。
(3)告警通知流程:
①当告警对象站点设备与对端站点设备为同一管辖范围,调度值班员通知相关管辖运维分部生产值班员核查告警原因,并告知在45分钟之内反馈告警原因及影响的重要业务(保护、稳控、自动化、调度数据网、视频会议、广域网)。
②当告警对象站点设备与对端站点设备不在同一管辖范围时,调度值班员应查看告警对象站点设备和对端站点设备是否同时发生R_LOF告警,若同时发生R_LOF告警,调度值班员通知两个站点相关管辖运维分部生产值班员核查告警原因,并告知在45分钟之内反馈告警原因及影响的重要业务;若对端站点设备未发生R_LOF告警,调度值班员通知告警对象设备管辖运维分部生产值班员核查告警原因,并告知在45分钟之内反馈告警原因及影响的重要业务。
③故障通知规范用语:调度员:xx部门生产值班吗?我是信通调度员xxx,现在进行故障通知,请记录。xx年xx月xx日xx时xx分,xx站点xx设备xx槽xx端口发生R_LOF告警,对端为xx站点xx设备xx槽xx端口,请尽快核对告警原因,及时处理设备异常,45分钟内向调度汇报异常的初步原因及影响的重要业务。
(4)告警定性确认流程:
相关运维分部生产值班员反馈告警原因及影响的重要业务后,调度值班员进行告警定性,右键此条告警选择告警定性,由于国网对故障缺陷有考核,一般告警定性为用户原因或误告,用户原因填写模板为:XX 站点华为传输设备XX槽XX端口发生R_LOF告警,原因为对端站点停电或对端新投运设备调试;若此条告警时间不是当日的时间或者此条告警重复上报,则定性为误告,误告填写模板为:历史告警重复上报。(5)故障汇报及协调流程
①当相关运维分部生产值班员反馈告警原因为线路衰耗过大或光功率过载、单板故障、设备故障等原因,调度值班员及时向技术发展部汇报故障情况及影响的重要业务,并且及时通知通信运检分中心及相关运维分部进行业务迂回工作,确保“先抢通、后修复”的原则。待相关运维分部故障处理完成后,调度值班员要求相关运维分部在24小时之内将故障处理报告反馈至调控中心及技术发展部,调度值班员及时向技术发展部汇报故障处理完成情况,最后调度值班员在TMS中做好工作记录,形成闭环管理。
②当相关运维分部生产值班员反馈告警原因为对端站点为新投运站点设备调试、无业务运行等原因,调度值班员在TMS中做好工作记录,形成闭环管理。
③工作记录模板:xx年xx月xx日xx:xx分,调度值班员监控发现xx 站点xx设备xx槽xx端口发生xx告警,调度值班员通知xx运维分部生产值班员xxx,xx:xx分xx生产值班员xx反馈故障原因为xx,主要影响业务为xx; xx:xx分调度值班员向技术发展部xx汇报;xx:xx分xx运维分部反馈故障恢复正常,xx:xx分恢复正常;xx:xx分调度值班员向技术发展部xx汇报故障恢复正常。
3、R_OOF(接收线路侧帧失步告警)
(1)TMS告警定位查看流程:
当告警原始原因为R_ OOF时,查看告警对象为XX站点XX设备X槽XX网元号XX框XX槽XX板XX端口,右键此条告警选择告警定位后进入传输拓扑图,若能直接定位到网元可直接双击进入设备面板图查看告警,若无法定位,点击分层加载图标将所有网元加载完毕后,在搜索一栏输入站点名称,选择告警对象中的网元型号进行定位,选择网元双击直接进入设备面板图,双击告警对象中的槽位进入板卡试图,选择告警对象中的端口查看对端站点设备槽位及端口。
(2)R_OOF告警描述及原因:
告警描述:R_OOF(Out Of Frame)告警为接收线路侧帧失步告警,表明线路单板接收信号中连续5帧以上无法判别帧头,进入帧失步状态。该告警产生后,业务中断,并向下游下插AIS信号。产生该告警后,系统会自动向上游站点回告MS_RDI,上游站点会产生MS_RDI告警。如果帧失步持续了3ms,则进入帧丢失状态,设备产生帧丢失告警R_LOF。
告警原因:
①对端站发送部分故障(对端站连接件、连纤、单板故障);
②本站接收方向故障(本端站连接件、连纤、单板故障);
③同步时钟源严重失步;
④接收信号衰减过大;
⑤传输过程误码过大。
(3)告警通知流程:
①当告警对象站点设备与对端站点设备为同一管辖范围,调度值班员通知相关管辖运维分部生产值班员核查告警原因,并告知在45分钟之内反馈告警原因及影响的重要业务(保护、稳控、自动化、调度数据网、视频会议、广域网)。
②当告警对象站点设备与对端站点设备不在同一管辖范围时,调度值班员应查看告警对象站点设备和对端站点设备是否同时发生R_OOF告警,若同时发生R_OOF告警,调度值班员通知两个站点相关管辖运维分部生产值班员核查告警原因,并告知在45分钟之内反馈告警原因及影响的重要业务;若对端站点设备未发生R_OOF告警,调度值班员通知告警对象设备管辖运维分部生产值班员核查告警原因,并告知在45分钟之内反馈告警原因及影响的重要业务。
③故障通知规范用语:调度员:xx部门生产值班吗?我是信通调度员xxx,现在进行故障通知,请记录。xx年xx月xx日xx时xx分,xx站点xx设备xx槽xx端口发生R_OOF告警,对端为xx站点xx设备xx槽xx 端口,请尽快核对告警原因,及时处理设备异常,45分钟内向调度汇报异常的初步原因及影响的重要业务。
(4)告警定性确认流程:
相关运维分部生产值班员反馈告警原因及影响的重要业务后,调度值班员进行告警定性,右键此条告警选择告警定性,由于国网对故障缺陷有考核,一般告警定性为用户原因或误告,用户原因填写模板为:XX 站点华为传输设备XX槽XX端口发生R_OOF告警,原因为对端站点停电或对端新投运设备调试;若此条告警时间不是当日的时间或者此条告警重复上报,则定性为误告,误告填写模板为:历史告警重复上报。
(5)故障汇报及协调流程
①当相关运维分部生产值班员反馈告警原因为线路衰耗过大或光功率过载、单板故障、设备故障等原因,调度值班员及时向技术发展部汇报故障情况及影响的重要业务,并且及时通知通信运检分中心及相关运维分部进行业务迂回工作,确保“先抢通、后修复”的原则。待相关运维分部故障处理完成后,调度值班员要求相关运维分部在24小时之内将故障处理报告反馈至调控中心及技术发展部,调度值班员及时向技术发展部汇报故障处理完成情况,最后调度值班员在TMS中做好工作记录,形成闭环管理。
②当相关运维分部生产值班员反馈告警原因为对端站点为新投运站点设备调试、无业务运行等原因,调度值班员在TMS中做好工作记录,形成闭环管理。
③工作记录模板:xx年xx月xx日xx:xx分,调度值班员监控发现xx 站点xx设备xx槽xx端口发生xx告警,调度值班员通知xx运维分部生产值班员xxx,xx:xx分xx生产值班员xx反馈故障原因为xx,主要影响业务为xx; xx:xx分调度值班员向技术发展部xx汇报;xx:xx分xx运维分部反馈故障恢复正常,xx:xx分恢复正常;xx:xx分调度值班员向技术发展部xx汇报故障恢复正常。
4、IN_PWR_ABN(输入功率异常告警)
(1)TMS告警定位查看流程:
当告警原始原因为IN_PWR_ABN时,查看告警对象为XX站点XX设备X槽XX网元号XX框XX槽XX板XX端口,右键此条告警选择告警定位后进入传输拓扑图,若能直接定位到网元可直接双击进入设备面板图查看告警,若无法定位,点击分层加载图标将所有网元加载完毕后,在搜索一栏输入站点名称,选择告警对象中的网元型号进行定位,选择网元双击直接进入设备面板图,双击告警对象中的槽位进入板卡试图,选择告警对象中的端口查看对端站点设备槽位及端口。
(2)IN_PWR_ABN告警描述及原因:
告警描述:IN _PWR_ABN告警表示输入光功率异常(Input power abnormal)。该告警会影响业务的传输性能,严重时会造成业务的中断。
告警原因:
①光纤弯曲过大;
②光纤头不清洁或光连接器连接不正确;
③探测器或放大电路故障;
(3)告警通知流程:
①当告警对象站点设备与对端站点设备为同一管辖范围,调度值班员通知相关管辖运维分部生产值班员核查告警原因,并告知在45分钟之内反馈告警原因及影响的重要业务(保护、稳控、自动化、调度数据网、视频会议、广域网)。
②当告警对象站点设备与对端站点设备不在同一管辖范围时,调度值班员应查看告警对象站点设备和对端站点设备是否同时发生IN_PWR_ABN告警,若同时发生IN_PWR_ABN告警,调度值班员通知两个站点相关管辖运维分部生产值班员核查告警原因,并告知在45分钟之内反馈告警原因及影响的重要业务;若对端站点设备未发生
IN_PWR_ABN告警,调度值班员通知告警对象设备管辖运维分部生产值班员核查告警原因,并告知在45分钟之内反馈告警原因及影响的重要业务。
③故障通知规范用语:调度员:xx部门生产值班吗?我是信通调度员xxx,现在进行故障通知,请记录。xx年xx月xx日xx时xx分,xx站点xx设备xx槽xx端口发生IN_PWR_ABN告警,对端为xx站点xx设备xx 槽xx端口,请尽快核对告警原因,及时处理设备异常,45分钟内向调度汇报异常的初步原因及影响的重要业务。
(4)告警定性确认流程:
相关运维分部生产值班员反馈告警原因及影响的重要业务后,调度值班员进行告警定性,右键此条告警选择告警定性,由于国网对故障缺陷有考核,一般告警定性为用户原因或误告,用户原因填写模板为:XX 站点华为传输设备XX槽XX端口发生IN_PWR_ABN告警,原因为对端站点停电或对端新投运设备调试;若此条告警时间不是当日的时间或者此条告警重复上报,则定性为误告,误告填写模板为:历史告警重复上报。(5)故障汇报及协调流程
①当相关运维分部生产值班员反馈告警原因为光纤弯曲过大、光纤头不清洁或光连接器故障、探测器或放大电路故障等原因,调度值班员及时向技术发展部汇报故障情况及影响的重要业务,并且及时通知通信运检分中心及相关运维分部进行业务迂回工作,确保“先抢通、后修复”的原则。待相关运维分部故障处理完成后,调度值班员要求相关运维分部在24小时之内将故障处理报告反馈至调控中心及技术发展部,调度值班员及时向技术发展部汇报故障处理完成情况,最后调度值班员在TMS 中做好工作记录,形成闭环管理。
②当相关运维分部生产值班员反馈告警原因为对端站点为新投运站点设备调试、无业务运行等原因,调度值班员在TMS中做好工作记录,形成闭环管理。
③工作记录模板:xx年xx月xx日xx:xx分,调度值班员监控发现xx 站点xx设备xx槽xx端口发生xx告警,调度值班员通知xx运维分部生产值班员xxx,xx:xx分xx生产值班员xx反馈故障原因为xx,主要影响业务为xx; xx:xx分调度值班员向技术发展部xx汇报;xx:xx分xx运维分部反馈故障恢复正常,xx:xx分恢复正常;xx:xx分调度值班员向技术发展部xx汇报故障恢复正常。
5、AU_AIS(AU告警指示)
(1)TMS告警定位查看流程:
当告警原始原因为AU_AIS时,查看告警对象为XX站点XX设备X槽XX网元号XX框XX槽XX板XX端口,右键此条告警选择告警定位后进入传输拓扑图,若能直接定位到网元可直接双击进入设备面板图查看告警,若无法定位,点击分层加载图标将所有网元加载完毕后,在搜索一栏输入站点名称,选择告警对象中的网元型号进行定位,选择网元双击直接进入设备面板图,双击告警对象中的槽位进入板卡试图,选择告警对象中的端口查看对端站点设备槽位及端口。
(2)AU_AIS告警描述及原因:
告警描述:AU_AIS为管理单元告警指示信号(AU alarm indication)。
当本站光口接收侧接收到的指针值为全“1”时就会上报该告警。该告警产生时,在没有网络保护的情况下,通道级别业务中断。产生该告警后,会引起下游站点产生AU_AIS告警。
告警原因:
①由MS_AIS、R_LOS、R_LOF告警引发的相应VC-4通道的AU_AIS
告警;
②业务配置错误;
③对端站发送AU_AIS;
④对端站发送部分故障
⑤本站接收部分故障
(3)告警通知流程:
①查看是否有相关R_LOS、R_LOF、R_OOF等告警引发的相应VC4通道的AU_AIS告警,若有按照R_LOS、R_LOF、R_OOF告警处理流程进行。
②若没有相关R_LOS、R_LOF、R_OOF等告警发生,调度值班员通知通信运检分中心生产值班员核查告警原因,并告知在45分钟之内反馈告警原因及影响的重要业务,当通信运检分中心生产值班员反馈告警原因为青海华为系统某一设备故障导致,调度值班员通知设备相关管辖运维分部核查故障原因,并告知在45分钟之内反馈告警原因及影响的重要业务。
③故障通知规范用语:调度员:xx部门生产值班吗?我是信通调度员xxx,现在进行故障通知,请记录。xx年xx月xx日xx时xx分,xx站点xx设备xx槽xx端口发生AU_AIS告警,对端为xx站点xx设备xx槽xx 端口,请尽快核对告警原因,及时处理设备异常,45分钟内向调度汇报异常的初步原因及影响的重要业务。
(4)告警定性确认流程:
相关运维分部生产值班员反馈告警原因及影响的重要业务后,调度值班员进行告警定性,右键此条告警选择告警定性,由于国网对故障缺陷有考核,一般告警定性为用户原因或误告,用户原因填写模板为:XX 站点华为传输设备XX槽XX端口发生AU_AIS告警,原因为对端站点停电或对端新投运设备调试;若此条告警时间不是当日的时间或者此条告警重复上报,则定性为误告,误告填写模板为:历史告警重复上报。(5)故障汇报及协调流程
①当相关运维分部生产值班员反馈告警原因为光路故障、设备故障等原因,调度值班员及时向技术发展部汇报故障情况及影响的重要业务,并且及时通知通信运检分中心及相关运维分部进行业务迂回工作,确保“先抢通、后修复”的原则。待相关运维分部故障处理完成后,调度值班员要求相关运维分部在24小时之内将故障处理报告反馈至调控中心及技术发展部,调度值班员及时向技术发展部汇报故障处理完成情况,最后调度值班员在TMS中做好工作记录,形成闭环管理。
②当通信运检分中心生产值班员反馈告警原因为西北网调管华为传输设备故障导致或无业务运行等原因,调度值班员在TMS中做好工作记录,形成闭环管理。
③工作记录模板:xx年xx月xx日xx:xx分,调度值班员监控发现xx
站点xx设备xx槽xx端口发生xx告警,调度值班员通知xx运维分部生产值班员xxx,xx:xx分xx生产值班员xx反馈故障原因为xx,主要影响业务为xx; xx:xx分调度值班员向技术发展部xx汇报;xx:xx分xx运维分部反馈故障恢复正常,xx:xx分恢复正常;xx:xx分调度值班员向技术发展部xx汇报故障恢复正常。
6 、APS_FAIL(保护倒换失败指示)
(1)TMS告警定位查看流程:
当告警原始原因为APS_FAIL时,查看告警对象为XX站点XX设备X 槽XX网元号XX框XX槽,右键此条告警选择告警定位后进入传输拓扑图,若能直接定位到网元可直接双击进入设备面板图查看告警,若无法定位,点击分层加载图标将所有网元加载完毕后,在搜索一栏输入站点名称,选择告警对象中的网元型号进行定位,选择网元双击直接进入设备面板图,查看槽位是什么板件(一般APS_FAIL都是从交叉板发出)。
(2)APS_FAIL告警描述及原因:
告警描述:APS_FAIL为复用段保护倒换失败指示告警(APS protection switching failed)。当复用段倒换失败时就会产生此告警。产生该告警后,复用段倒换失败,对于线性复用段和两纤环形复用段,如果再发生断纤或者其他故障,将中断业务。
告警原因:
①复用段配置参数错误;
②复用段配置丢失;
(3)告警通知流程:
①查看是否有相关R_LOS、R_LOF、MS_AIS、B2_EXC、B2_SD等告警引发,若有按照R_LOS、R_LOF、MS_AIS、B2_EXC、B2_SD告警处理流程进行,并且及时通知通信运检分中心及相关管辖运维分部核查复用段倒换是否正常,并告知在45分钟之内反馈告警原因及影响的重要业务。
②若没有相关R_LOS、R_LOF、MS_AIS、B2_EXC、B2_SD等告警发生,调度值班员通知告警对象设备相关管辖生产值班员核查告警原因,并告知在45分钟之内反馈告警原因及影响的重要业务。
③故障通知规范用语:调度员:xx部门生产值班吗?我是信通调度员xxx,现在进行故障通知,请记录。xx年xx月xx日xx时xx分,xx站点xx设备xx槽发生APS_FAIL告警,请尽快核对告警原因,及时处理设备异常,45分钟内向调度汇报异常的初步原因及影响的重要业务。
(4)告警定性确认流程:
相关运维分部生产值班员反馈告警原因及影响的重要业务后,调度值班员进行告警定性,右键此条告警选择告警定性,由于国网对故障缺陷有考核,一般告警定性为用户原因或误告,用户原因填写模板为:XX 站点华为传输设备XX槽发生APS_FAIL告警,原因为对端站点停电或对端新投运设备调试;若此条告警时间不是当日的时间或者此条告警重复上报,则定性为误告,误告填写模板为:历史告警重复上报。
(5)故障汇报及协调流程
①当相关运维分部生产值班员反馈告警原因为复用段保护失败导致重要业务中断等原因,调度值班员及时向技术发展部汇报故障情况及影响的重要业务,并且及时通知通信运检分中心及相关运维分部进行业务
迂回工作,确保“先抢通、后修复”的原则。待相关运维分部故障处理完成后,调度值班员要求相关运维分部在24小时之内将故障处理报告反馈至调控中心及技术发展部,调度值班员及时向技术发展部汇报故障处理完成情况,最后调度值班员在TMS中做好工作记录,形成闭环管理。
②当相关管辖运维分部反馈告警原因为误报或无业务运行等原因,调度值班员在TMS中做好工作记录,形成闭环管理。
③工作记录模板:xx年xx月xx日xx:xx分,调度值班员监控发现xx 站点xx设备xx槽发生xx告警,调度值班员通知xx运维分部生产值班员xxx,xx:xx分xx生产值班员xx反馈故障原因为xx,主要影响业务为xx; xx:xx分调度值班员向技术发展部xx汇报;xx:xx分xx运维分部反馈故障恢复正常,xx:xx分恢复正常;xx:xx分调度值班员向技术发展部xx汇报故障恢复正常。
7、APS_INDI(保护倒换指示)
(1)TMS告警定位查看流程:
当告警原始原因为APS_INDI时,查看告警对象为XX站点XX设备X 槽XX网元号XX框XX槽,右键此条告警选择告警定位后进入传输拓扑图,若能直接定位到网元可直接双击进入设备面板图查看告警,若无法定位,点击分层加载图标将所有网元加载完毕后,在搜索一栏输入站点名称,选择告警对象中的网元型号进行定位,选择网元双击直接进入设备面板图,查看槽位是什么板件(一般APS_INDI都是从交叉板发出)。
(2)APS_INDI告警描述及原因:
告警描述:APS_INDI为复用段状态指示告警(APS state indicate alarm)。当复用段处于倒换态时上报此告警。产生该告警表明发生了自动保护倒换或外部命令倒换,受保护的业务已经倒换到保护通路上传输。该告警不影响业务运行,但如果此时保护通路也出现故障,将中断业务。
告警原因:
①由高级告警(R_LOS、R_LOF、MS_AIS、B2_EXC、B2_SD)引起;
②业务板、交叉板故障引起;
③由外部下发倒换命令(包括人工倒换、强制倒换、练习倒换)产
生。
(3)告警通知流程:
①查看是否有相关R_LOS、R_LOF、MS_AIS、B2_EXC、B2_SD等告警引发,若有按照R_LOS、R_LOF、MS_AIS、B2_EXC、B2_SD告警处理流程进行。
②若没有相关R_LOS、R_LOF、MS_AIS、B2_EXC、B2_SD等告警发生,调度值班员通知告警对象设备相关管辖生产值班员核查告警原因,并告知在45分钟之内反馈告警原因及影响的重要业务。
③故障通知规范用语:调度员:xx部门生产值班吗?我是信通调度员xxx,现在进行故障通知,请记录。xx年xx月xx日xx时xx分,xx站点xx设备xx槽发生APS_INDI告警,请尽快核对告警原因,及时处理设备异常,45分钟内向调度汇报异常的初步原因及影响的重要业务。
(4)告警定性确认流程:
相关运维分部生产值班员反馈告警原因及影响的重要业务后,调度值班员进行告警定性,右键此条告警选择告警定性,由于国网对故障缺
陷有考核,一般告警定性为用户原因或误告,用户原因填写模板为:XX 站点华为传输设备XX槽发生APS_INDI告警,原因为对端站点停电或对端新投运设备调试;若此条告警时间不是当日的时间或者此条告警重复上报,则定性为误告,误告填写模板为:历史告警重复上报。
(5)故障汇报及协调流程
①当相关运维分部生产值班员反馈告警原因为业务板、交叉板故障等原因,调度值班员及时向技术发展部汇报故障情况及影响的重要业务,并且及时通知通信运检分中心及相关运维分部进行业务迂回工作,确保“先抢通、后修复”的原则。待相关运维分部故障处理完成后,调度值班员要求相关运维分部在24小时之内将故障处理报告反馈至调控中心及技术发展部,调度值班员及时向技术发展部汇报故障处理完成情况,最后调度值班员在TMS中做好工作记录,形成闭环管理。
②当相关管辖运维分部反馈告警原因为由外部下发倒换命令(包括人工倒换、强制倒换、练习倒换)产生,调度值班员在TMS中做好工作记录,形成闭环管理。
③工作记录模板:xx年xx月xx日xx:xx分,调度值班员监控发现xx 站点xx设备xx槽发生xx告警,调度值班员通知xx运维分部生产值班员xxx,xx:xx分xx生产值班员xx反馈故障原因为xx,主要影响业务为xx; xx:xx分调度值班员向技术发展部xx汇报;xx:xx分xx运维分部反馈故障恢复正常,xx:xx分恢复正常;xx:xx分调度值班员向技术发展部xx汇报故障恢复正常。
8、LOOP_ALM(环回告警)
(1)TMS告警定位查看流程:
当告警原始原因为LOOP_ALM时,查看告警对象为XX站点XX设备X槽XX网元号XX框XX槽XX端口,右键此条告警选择告警定位后进入传输拓扑图,若能直接定位到网元可直接双击进入设备面板图查看告警,若无法定位,点击分层加载图标将所有网元加载完毕后,在搜索一栏输入站点名称,选择告警对象中的网元型号进行定位,选择网元双击直接进入设备面板图,双击告警对象中的槽位进入板卡试图,选择告警对象中的端口查看对端站点设备槽位及端口。
(2)LOOP_ALM告警描述及原因:
告警描述:LOOP_ALM为环回告警(Loop alarm)。当线路板发生内环回或外环回时会产生该告警。
告警原因:
①线路板发生内环回或外环回。
(3)告警通知流程:
①调度值班员通知相关管辖运维分部生产值班员核查告警原因,并告知在45分钟之内反馈告警原因及影响的重要业务(保护、稳控、自动化、调度数据网、视频会议、广域网)。
②故障通知规范用语:调度员:xx部门生产值班吗?我是信通调度员xxx,现在进行故障通知,请记录。xx年xx月xx日xx时xx分,xx站点xx设备xx槽xx端口发生LOOP_ALM告警,请尽快核对告警原因,及时处理设备异常,45分钟内向调度汇报异常的初步原因及影响的重要业务。(4)告警定性确认流程:
①相关运维分部生产值班员反馈告警原因及影响的重要业务后,调度值班员进行告警定性,右键此条告警选择告警定性,由于国网对故障缺陷有考核,一般告警定性为用户原因或误告,用户原因填写模板为:xx站点华为传输设备xx槽xx端口发生LOOP_ALM告警,原因为对端新投运业务调试;若此条告警时间不是当日的时间或者此条告警重复上报,则定性为误告,误告填写模板为:历史告警重复上报。
(5)故障汇报及协调流程
①当相关管辖运维分部反馈告警原因为误环回操作导致重要业务中断,调度值班员及时向技术发展部汇报故障情况及影响的重要业务,并且及时通知相关运维分部进行业务恢复工作,确保“先抢通、后修复”的原则。待相关运维分部故障处理完成后,调度值班员要求相关运维分部在24小时之内将故障处理报告反馈至调控中心及技术发展部,调度值班员及时向技术发展部汇报故障处理完成情况,最后调度值班员在TMS 中做好工作记录,形成闭环管理。
②当相关管辖运维分部反馈告警原因为新投运业务调试导致的环回告警,调度值班员在TMS中做好工作记录,形成闭环管理。
③工作记录模板:xx年xx月xx日xx:xx分,调度值班员监控发现xx 站点xx设备xx槽xx端口发生xx告警,调度值班员通知xx运维分部生产值班员xxx,xx:xx分xx生产值班员xx反馈故障原因为xx,主要影响业务为xx; xx:xx分调度值班员向技术发展部xx汇报;xx:xx分xx运维分部反馈故障恢复正常,xx:xx分恢复正常;xx:xx分调度值班员向技术发展部xx汇报故障恢复正常。
9、BIP_SD(BIP信号劣化)
(1)TMS告警定位查看流程:
当告警原始原因为BIP_SD时,查看告警对象为XX站点XX设备X槽XX网元号XX框XX槽XX端口,右键此条告警选择告警定位后进入传输拓扑图,若能直接定位到网元可直接双击进入设备面板图查看告警,若无法定位,点击分层加载图标将所有网元加载完毕后,在搜索一栏输入站点名称,选择告警对象中的网元型号进行定位,选择网元双击直接进入设备面板图,双击告警对象中的槽位进入板卡试图,选择告警对象中的端口查看对端站点设备槽位及端口。
(2)BIP_SD告警描述及原因:
告警描述:BIP_SD为BIP信号劣化(BIP signal degraded)。
告警原因:
①系统中存在更高级别的误码告警;
②低阶业务BIP2误码过大;
③上游站单板发送信号故障;
④本站接收信号故障。
(3)告警通知流程:
①查看是否有相关R_LOS、R_LOF等告警引发,若有按照R_LOS、R_LOF告警处理流程进行。
②若没有相关R_LOS、R_LOF等告警发生,调度值班员通知告警对象设备相关管辖生产值班员核查告警原因,并告知在45分钟之内反馈告警原因及影响的重要业务。
③故障通知规范用语:调度员:xx部门生产值班吗?我是信通调度员xxx,现在进行故障通知,请记录。xx年xx月xx日xx时xx分,xx站点xx设备xx槽发生APS_INDI告警,请尽快核对告警原因,及时处理设备异常,45分钟内向调度汇报异常的初步原因及影响的重要业务。
(4)告警定性确认流程:
①相关运维分部生产值班员反馈告警原因及影响的重要业务后,调度值班员进行告警定性,右键此条告警选择告警定性,由于国网对故障缺陷有考核,一般告警定性为用户原因或误告,用户原因填写模板为:xx站点华为传输设备xx槽xx发生BIP_SD告警,原因为对端新投运业务调试;若此条告警时间不是当日的时间或者此条告警重复上报,则定性为误告,误告填写模板为:历史告警重复上报。
(5)故障汇报及协调流程
①当相关管辖运维分部反馈告警原因为误码过大、线路异常、设备故障导致重要业务中断,调度值班员及时向技术发展部汇报故障情况及影响的重要业务,并且及时通知相关运维分部进行业务恢复工作,确保“先抢通、后修复”的原则。待相关运维分部故障处理完成后,调度值班员要求相关运维分部在24小时之内将故障处理报告反馈至调控中心及技术发展部,调度值班员及时向技术发展部汇报故障处理完成情况,最后调度值班员在TMS中做好工作记录,形成闭环管理。
②当相关管辖运维分部反馈告警原因为误告或无业务运行,调度值班员在TMS中做好工作记录,形成闭环管理。
③工作记录模板:xx年xx月xx日xx:xx分,调度值班员监控发现xx 站点xx设备xx槽xx端口发生xx告警,调度值班员通知xx运维分部生产值班员xxx,xx:xx分xx生产值班员xx反馈故障原因为xx,主要影响业务为xx; xx:xx分调度值班员向技术发展部xx汇报;xx:xx分xx运维分部反馈故障恢复正常,xx:xx分恢复正常;xx:xx分调度值班员向技术发展部xx汇报故障恢复正常。
10、ETH_LOS(以太网输入信号丢失)
(1)TMS告警定位查看流程:
当告警原始原因为ETH_LOS时,查看告警对象为XX站点XX设备X 槽XX网元号XX框XX槽XX端口,右键此条告警选择告警定位后进入传输拓扑图,若能直接定位到网元可直接双击进入设备面板图查看告警,若无法定位,点击分层加载图标将所有网元加载完毕后,在搜索一栏输入站点名称,选择告警对象中的网元型号进行定位,选择网元双击直接进入设备面板图,双击告警对象中的槽位进入板卡试图,选择告警对象中的端口查看对端站点设备槽位及端口。
(2)ETH_LOS告警描述及原因:
告警描述:ETH_LOS为网口连接丢失告警。该告警表示以太网端口接收不到以太网信号。产生该告警后,网口接收不到数据,业务中断。
告警原因:
①网线、光纤故障或松动;
②对端发送部分故障,本端接收部分故障。
(3)告警通知流程:
①调度值班员通知相关管辖运维分部生产值班员核查告警原因,并
告知在45分钟之内反馈告警原因及影响的重要业务(视频会议、广域网)。
②故障通知规范用语:调度员:xx部门生产值班吗?我是信通调度员xxx,现在进行故障通知,请记录。xx年xx月xx日xx时xx分,xx站点xx设备xx槽xx端口发生ETH_LOS告警,请尽快核对告警原因,及时处理设备异常,45分钟内向调度汇报异常的初步原因及影响的重要业务。(4)告警定性确认流程:
①相关运维分部生产值班员反馈告警原因及影响的重要业务后,调度值班员进行告警定性,右键此条告警选择告警定性,由于国网对故障缺陷有考核,一般告警定性为用户原因或误告,用户原因填写模板为:xx站点华为传输设备xx槽xx端口发生ETH_LOS告警,原因为新投运网络设备调试;若此条告警时间不是当日的时间或者此条告警重复上报,则定性为误告,误告填写模板为:历史告警重复上报。
(5)故障汇报及协调流程
①当相关管辖运维分部反馈告警原因为网线、光纤故障或松动、传输设备故障导致重要业务中断,调度值班员及时向技术发展部汇报故障情况及影响的重要业务,并且及时通知相关运维分部进行业务恢复工作,确保“先抢通、后修复”的原则。待相关运维分部故障处理完成后,调度值班员要求相关运维分部在24小时之内将故障处理报告反馈至调控中心及技术发展部,调度值班员及时向技术发展部汇报故障处理完成情况,最后调度值班员在TMS中做好工作记录,形成闭环管理。
②当相关管辖运维分部反馈告警原因为新投运业务调试或站点停电导致告警,调度值班员在TMS中做好工作记录,形成闭环管理。
③工作记录模板:xx年xx月xx日xx:xx分,调度值班员监控发现xx 站点xx设备xx槽xx端口发生xx告警,调度值班员通知xx运维分部生产值班员xxx,xx:xx分xx生产值班员xx反馈故障原因为xx,主要影响业务为xx; xx:xx分调度值班员向技术发展部xx汇报;xx:xx分xx运维分部反馈故障恢复正常,xx:xx分恢复正常;xx:xx分调度值班员向技术发展部xx汇报故障恢复正常。
11、BD_STATUS(单板不在位告警)
(1)TMS告警定位查看流程:
当告警原始原因为BD_STATUS时,查看告警对象为XX站点XX设备X槽XX网元号XX框XX槽,右键此条告警选择告警定位后进入传输拓扑图,若能直接定位到网元可直接双击进入设备面板图查看告警,若无法定位,点击分层加载图标将所有网元加载完毕后,在搜索一栏输入站点名称,选择告警对象中的网元型号进行定位,选择网元双击直接进入设备面板图,双击告警对象中的槽位进入板卡试图,查看槽位是什么板件。(2)BD_STATUS告警描述及原因:
告警描述:BD_STATUS为单板物理离线告警。当用户在网管上配置了该单板而物理子架上却没有插入实际单板时就会上报此告警。由于设备上没有插入实际单板,主机配置好的的数据无法下发到该单板,业务将无法配置成功。
告警原因:
①单板未插;
②板间通讯故障;
③单板软件故障,无法和主机通信;
④单板未插好;
⑤单板正在硬复位或软复位;
⑥单板故障。
(3)告警通知流程:
①调度值班员通知相关管辖运维分部生产值班员核查告警原因,并告知在45分钟之内反馈告警原因及影响的重要业务(保护、稳控、自动化、调度数据网、视频会议、广域网)。
②故障通知规范用语:调度员:xx部门生产值班吗?我是信通调度员xxx,现在进行故障通知,请记录。xx年xx月xx日xx时xx分,xx站点xx设备xx槽发生BD_STATUS告警,请尽快核对告警原因,及时处理设备异常,45分钟内向调度汇报异常的初步原因及影响的重要业务。
(4)告警定性确认流程:
①相关运维分部生产值班员反馈告警原因及影响的重要业务后,调度值班员进行告警定性,右键此条告警选择告警定性,由于国网对故障缺陷有考核,一般告警定性为用户原因或误告,用户原因填写模板为:xx站点华为传输设备xx槽xx端口发生BD_STATUS告警,原因为新投运设备板件调试;若此条告警时间不是当日的时间或者此条告警重复上报,则定性为误告,误告填写模板为:历史告警重复上报。
(5)故障汇报及协调流程
①当相关管辖运维分部反馈告警原因为单板故障导致重要业务中断,调度值班员及时向技术发展部汇报故障情况及影响的重要业务,并且及时通知相关运维分部进行业务恢复工作,确保“先抢通、后修复”的原则。待相关运维分部故障处理完成后,调度值班员要求相关运维分部在24小时之内将故障处理报告反馈至调控中心及技术发展部,调度值班员及时向技术发展部汇报故障处理完成情况,最后调度值班员在TMS中做好工作记录,形成闭环管理。
②当相关管辖运维分部反馈告警原因为新投运设备板件调试产生告警,调度值班员在TMS中做好工作记录,形成闭环管理。
③工作记录模板:xx年xx月xx日xx:xx分,调度值班员监控发现xx 站点xx设备xx槽xx端口发生xx告警,调度值班员通知xx运维分部生产值班员xxx,xx:xx分xx生产值班员xx反馈故障原因为xx,主要影响业务为xx; xx:xx分调度值班员向技术发展部xx汇报;xx:xx分xx运维分部反馈故障恢复正常,xx:xx分恢复正常;xx:xx分调度值班员向技术发展部xx汇报故障恢复正常。
12、FAN_FAIL(风扇故障)
(1)TMS告警定位查看流程:
当告警原始原因为FAN_FAIL时,查看告警对象为XX站点XX设备X 槽XX网元号XX框XX槽,右键此条告警选择告警定位后进入传输拓扑图,若能直接定位到网元可直接双击进入设备面板图查看告警,若无法定位,点击分层加载图标将所有网元加载完毕后,在搜索一栏输入站点名称,选择告警对象中的网元型号进行定位,选择网元双击直接进入设备面板图,双击告警对象中的槽位进入板卡试图,查看槽位是什么板件(一般为风扇板)。
(2)FAN_FAIL告警描述及原因:
告警描述:FAN_FAIL为风扇故障告警。当风扇故障时就会上报此告警。产生该告警后,如不及时解决故障,可能会因过热而损坏网元,从而造成整个设备的业务中断。
告警原因:
①风扇未开;
②风扇失效。
(3)告警通知流程:
①调度值班员通知相关管辖运维分部生产值班员核查告警原因,并告知在45分钟之内反馈告警原因及影响的重要业务(保护、稳控、自动化、调度数据网、视频会议、广域网)。
②故障通知规范用语:调度员:xx部门生产值班吗?我是信通调度员xxx,现在进行故障通知,请记录。xx年xx月xx日xx时xx分,xx站点xx设备xx槽发生FAN_FAIL告警,请尽快核对告警原因,及时处理设备异常,45分钟内向调度汇报异常的初步原因及影响的重要业务。
(4)告警定性确认流程:
①相关运维分部生产值班员反馈告警原因及影响的重要业务后,调度值班员进行告警定性,右键此条告警选择告警定性,由于国网对故障缺陷有考核,一般告警定性为用户原因或误告,用户原因填写模板为:xx站点华为传输设备xx槽xx端口发生FAN_FAIL告警,原因为运维人员进行设备除尘工作;若此条告警时间不是当日的时间或者此条告警重复上报,则定性为误告,误告填写模板为:历史告警重复上报。
(5)故障汇报及协调流程
①当相关管辖运维分部反馈告警原因为风扇故障导致重要业务中断,调度值班员及时向技术发展部汇报故障情况及影响的重要业务,并且及时通知相关运维分部进行业务恢复工作,确保“先抢通、后修复”的原则。待相关运维分部故障处理完成后,调度值班员要求相关运维分部在24小时之内将故障处理报告反馈至调控中心及技术发展部,调度值班员及时向技术发展部汇报故障处理完成情况,最后调度值班员在TMS中做好工作记录,形成闭环管理。
②当相关管辖运维分部反馈告警原因为现场运维人员进行除尘工作或无业务影响,调度值班员在TMS中做好工作记录,形成闭环管理。
③工作记录模板:xx年xx月xx日xx:xx分,调度值班员监控发现xx 站点xx设备xx槽xx端口发生xx告警,调度值班员通知xx运维分部生产值班员xxx,xx:xx分xx生产值班员xx反馈故障原因为xx,主要影响业务为xx; xx:xx分调度值班员向技术发展部xx汇报;xx:xx分xx运维分部反馈故障恢复正常,xx:xx分恢复正常;xx:xx分调度值班员向技术发展部xx汇报故障恢复正常。
13、POWER_FAIL(电源失效)
(1)TMS告警定位查看流程:
当告警原始原因为POWER_FAIL时,查看告警对象为XX站点XX设备X槽XX网元号XX框XX槽,右键此条告警选择告警定位后进入传输拓扑图,若能直接定位到网元可直接双击进入设备面板图查看告警,若无法定位,点击分层加载图标将所有网元加载完毕后,在搜索一栏输入站点
名称,选择告警对象中的网元型号进行定位,选择网元双击直接进入设备面板图,双击告警对象中的槽位进入板卡试图,查看槽位是什么板件(一般为电源板)。
(2)POWER_FAIL告警描述及原因:
告警描述:POWER_FAIL为电源故障告警。当电源故障时就会上报此告警。产生该告警后,如不及时解决故障,造成设备停止运行,从而造成整个设备的业务中断。
告警原因:
①电源盒失效;
②时钟板故障或不在位;
③电池电量过低或出现故障。
(3)告警通知流程:
①调度值班员通知相关管辖运维分部生产值班员核查告警原因,并告知在45分钟之内反馈告警原因及影响的重要业务(保护、稳控、自动化、调度数据网、视频会议、广域网)。
②故障通知规范用语:调度员:xx部门生产值班吗?我是信通调度员xxx,现在进行故障通知,请记录。xx年xx月xx日xx时xx分,xx站点xx设备xx槽发生FAN_FAIL告警,请尽快核对告警原因,及时处理设备异常,45分钟内向调度汇报异常的初步原因及影响的重要业务。
(4)告警定性确认流程:
①相关运维分部生产值班员反馈告警原因及影响的重要业务后,调度值班员进行告警定性,右键此条告警选择告警定性,由于国网对故障缺陷有考核,一般告警定性为用户原因或误告,用户原因填写模板为:xx站点华为传输设备xx槽xx端口发生POWER_FAIL告警,原因为运维人员进行电源板更换工作;若此条告警时间不是当日的时间或者此条告警重复上报,则定性为误告,误告填写模板为:历史告警重复上报。(5)故障汇报及协调流程
①当相关管辖运维分部反馈告警原因为电源板故障导致重要业务中断,调度值班员及时向技术发展部汇报故障情况及影响的重要业务,并且及时通知相关运维分部进行业务恢复工作,确保“先抢通、后修复”的原则。待相关运维分部故障处理完成后,调度值班员要求相关运维分部在24小时之内将故障处理报告反馈至调控中心及技术发展部,调度值班员及时向技术发展部汇报故障处理完成情况,最后调度值班员在TMS 中做好工作记录,形成闭环管理。
②当相关管辖运维分部反馈告警原因为误告及无业务影响,调度值班员在TMS中做好工作记录,形成闭环管理。
③工作记录模板:xx年xx月xx日xx:xx分,调度值班员监控发现xx站点xx设备xx槽xx端口发生xx告警,调度值班员通知xx运维分部生产值班员xxx,xx:xx分xx生产值班员xx反馈故障原因为xx,主要影响业务为xx; xx:xx分调度值班员向技术发展部xx汇报;xx:xx分xx运维分部反馈故障恢复正常,xx:xx分恢复正常;xx:xx分调度值班员向技术发展部xx汇报故障恢复正常。
(二)当TMS中发现原始告警所属系统为青海中兴SDH传输系统时,根据告警原始原因分为以下几种处理情况:
1、T_ALOS(2M接口模拟信号丢失)
(1)TMS告警定位查看流程:
当告警原始原因为T_ALOS时,查看告警对象为XX站点XX设备XX 槽XX端口,右键此条告警选择告警定位后进入传输拓扑图,若能直接定位到网元可直接双击进入设备面板图查看告警,若无法定位,点击分层加载图标将所有网元加载完毕后,在搜索一栏输入站点名称,选择告警对象中的网元型号进行定位,选择网元双击直接进入设备面板图,双击告警对象中的槽位进入板卡试图,选择告警对象中的端口查看业务名称。(2)T_ALOS告警描述及原因:
告警描述:T_ALOS告警表示E1接口模拟信号丢失。如果2M接口没有任何业务输入时,上报此告警。该告警会造成PDH业务中断。如果上报告警的端口是当前网元设置的同步时钟源,该告警会引起网元同步时钟源的倒换。产生该告警后,支路板会上插E1_AIS。
告警原因:
①E1业务未接入;
②DDF架侧E1接口输出端口脱落或松动;
③电缆故障;
④对接设备故障;
⑤接口板故障;
⑥单板故障。
(3)告警通知流程:
①调度值班员通知相关管辖运维分部生产值班员核查告警原因,并告知在45分钟之内反馈告警原因及影响的重要业务(保护、稳控、自动化、调度数据网、视频会议、广域网)。
②故障通知规范用语:调度员:xx部门生产值班吗?我是信通调度员xxx,现在进行故障通知,请记录。xx年xx月xx日xx时xx分,xx站点xx设备xx槽xx端口发生T_ALOS告警,对端为xx站点xx设备xx槽xx 端口,请尽快核对告警原因,及时处理设备异常,45分钟内向调度汇报异常的初步原因及影响的重要业务。
(4)告警定性确认流程:
相关运维分部生产值班员反馈告警原因及影响的重要业务后,调度值班员进行告警定性,右键此条告警选择告警定性,由于国网对故障缺陷有考核,一般告警定性为用户原因或误告,用户原因填写模板为:XX 站点华为传输设备XX槽XX端口发生T_ALOS告警,原因为对端接收设备停电或对端新投运业务调试;若此条告警时间不是当日的时间或者此条告警重复上报,则定性为误告,误告填写模板为:历史告警重复上报。(5)故障汇报及协调流程
①当相关运维分部生产值班员反馈告警原因为DDF架侧E1接口输出端口脱落或松动、电缆故障、单板故障等原因,调度值班员及时向技术发展部汇报故障情况及影响的重要业务,并且及时通知通信运检分中心及相关运维分部进行业务迂回工作,确保“先抢通、后修复”的原则。待相关运维分部故障处理完成后,调度值班员要求相关运维分部在24
小时之内将故障处理报告反馈至调控中心及技术发展部,调度值班员及时向技术发展部汇报故障处理完成情况,最后调度值班员在TMS中做好
工作记录,形成闭环管理。
②当相关运维分部生产值班员反馈告警原因为对端接收设备停电或新业务调试及无业务运行等原因,调度值班员在TMS中做好工作记录,形成闭环管理。
③工作记录模板:xx年xx月xx日xx:xx分,调度值班员监控发现xx 站点xx设备xx槽xx端口发生xx告警,调度值班员通知xx运维分部生产值班员xxx,xx:xx分xx生产值班员xx反馈故障原因为xx,主要影响业务为xx; xx:xx分调度值班员向技术发展部xx汇报;xx:xx分xx运维分部反馈故障恢复正常,xx:xx分恢复正常;xx:xx分调度值班员向技术发展部xx汇报故障恢复正常。
2、TU_AIS(TU通道告警指示)
(1)TMS告警定位查看流程:
当告警原始原因为TU_AIS时,查看告警对象为XX站点XX设备XX 槽XX端口,右键此条告警选择告警定位后进入传输拓扑图,若能直接定位到网元可直接双击进入设备面板图查看告警,若无法定位,点击分层加载图标将所有网元加载完毕后,在搜索一栏输入站点名称,选择告警对象中的网元型号进行定位,选择网元双击直接进入设备面板图,双击告警对象中的槽位进入板卡试图,选择告警对象中的端口查看业务名称。(2)TU_AIS告警描述及原因:
告警描述:TU_AIS告警为TU告警指示。如果单板检测出TU通道全为1时,上报此告警。该告警会造成单板通道上的业务中断。产生该告警后,系统会向对端方向回告LP_RDI告警。
告警原因:
①系统中存在更高阶的告警,如R_LOS、R_LOF、HP_SLM;
②业务交叉配置错误;
③对端站对应通道失效;
④交叉板故障。
(3)告警通知流程:
①查看是否有相关R_LOS、R_LOF等告警引发TU_AIS告警,若有按照R_LOS、R_LOF告警处理流程进行。
②若没有相关R_LOS、R_LOFF等告警发生,调度值班员通知通信运检分中心生产值班员核查告警原因,并告知在45分钟之内反馈告警原因及影响的重要业务,当通信运检分中心生产值班员反馈告警原因为青海华为系统某一设备故障导致,调度值班员通知设备相关管辖运维分部核查故障原因,并告知在45分钟之内反馈告警原因及影响的重要业务。
③故障通知规范用语:调度员:xx部门生产值班吗?我是信通调度员xxx,现在进行故障通知,请记录。xx年xx月xx日xx时xx分,xx站点xx设备xx槽xx端口发生TU_AIS告警,对端为xx站点xx设备xx槽xx 端口,请尽快核对告警原因,及时处理设备异常,45分钟内向调度汇报异常的初步原因及影响的重要业务。
(4)告警定性确认流程:
相关运维分部生产值班员反馈告警原因及影响的重要业务后,调度值班员进行告警定性,右键此条告警选择告警定性,由于国网对故障缺陷有考核,一般告警定性为用户原因或误告,用户原因填写模板为:XX
站点华为传输设备XX槽XX端口发生TU_AIS告警,原因为新投运业务调试;若此条告警时间不是当日的时间或者此条告警重复上报,则定性为误告,误告填写模板为:历史告警重复上报。
(5)故障汇报及协调流程
①当相关运维分部生产值班员反馈告警原因为业务配置错误或对端站对应通道失效等原因,调度值班员及时向技术发展部汇报故障情况及影响的重要业务,并且及时通知通信运检分中心及相关运维分部进行业务迂回工作,确保“先抢通、后修复”的原则。待相关运维分部故障处理完成后,调度值班员要求相关运维分部在24小时之内将故障处理报告反馈至调控中心及技术发展部,调度值班员及时向技术发展部汇报故障处理完成情况,最后调度值班员在TMS中做好工作记录,形成闭环管理。
②当通信运检分中心生产值班员反馈告警原因为西北网调管华为传输设备故障导致或无业务运行等原因,调度值班员在TMS中做好工作记录,形成闭环管理。
③工作记录模板:xx年xx月xx日xx:xx分,调度值班员监控发现xx 站点xx设备xx槽xx端口发生xx告警,调度值班员通知xx运维分部生产值班员xxx,xx:xx分xx生产值班员xx反馈故障原因为xx,主要影响业务为xx; xx:xx分调度值班员向技术发展部xx汇报;xx:xx分xx运维分部反馈故障恢复正常,xx:xx分恢复正常;xx:xx分调度值班员向技术发展部xx汇报故障恢复正常。
3、HARD_BAD(硬件故障告警)
(1)TMS告警定位查看流程:
当告警原始原因为HARD_BAD时,查看告警对象为XX站点XX设备XX槽,右键此条告警选择告警定位后进入传输拓扑图,若能直接定位到网元可直接双击进入设备面板图查看告警,若无法定位,点击分层加载图标将所有网元加载完毕后,在搜索一栏输入站点名称,选择告警对象中的网元型号进行定位,选择网元双击直接进入设备面板图,双击告警对象中的槽位进入板卡试图,查看槽位是什么板件。
(2)HARD_BAD告警描述及原因:
告警描述:HARD_BAD为硬件故障告警(Hardware Fails)。当单板检测到硬件出现异常时,就会上报该告警。产生该告警后,若该单板为备板,则无法进行主备倒换,并可能会造成业务中断。
告警原因:
①电源失效;
②单板故障。
(3)告警通知流程:
①调度值班员通知相关管辖运维分部生产值班员核查告警原因,并告知在45分钟之内反馈告警原因及影响的重要业务(保护、稳控、自动化、调度数据网、视频会议、广域网)。
②故障通知规范用语:调度员:xx部门生产值班吗?我是信通调度员xxx,现在进行故障通知,请记录。xx年xx月xx日xx时xx分,xx站点xx设备xx槽发生BD_STATUS告警,请尽快核对告警原因,及时处理设备异常,45分钟内向调度汇报异常的初步原因及影响的重要业务。
(4)告警定性确认流程:
①相关运维分部生产值班员反馈告警原因及影响的重要业务后,调度值班员进行告警定性,右键此条告警选择告警定性,由于国网对故障缺陷有考核,一般告警定性为用户原因或误告,用户原因填写模板为:xx站点华为传输设备xx槽xx端口发生HARD_BAD告警,原因为新投运设备板件调试;若此条告警时间不是当日的时间或者此条告警重复上报,则定性为误告,误告填写模板为:历史告警重复上报。
(5)故障汇报及协调流程
①当相关管辖运维分部反馈告警原因为单板故障导致重要业务中断,调度值班员及时向技术发展部汇报故障情况及影响的重要业务,并且及时通知相关运维分部进行业务恢复工作,确保“先抢通、后修复”的原则。待相关运维分部故障处理完成后,调度值班员要求相关运维分部在24小时之内将故障处理报告反馈至调控中心及技术发展部,调度值班员及时向技术发展部汇报故障处理完成情况,最后调度值班员在TMS中做好工作记录,形成闭环管理。
②当相关管辖运维分部反馈告警原因为新投运设备板件调试产生告警,调度值班员在TMS中做好工作记录,形成闭环管理。
③工作记录模板:xx年xx月xx日xx:xx分,调度值班员监控发现xx 站点xx设备xx槽xx端口发生xx告警,调度值班员通知xx运维分部生产值班员xxx,xx:xx分xx生产值班员xx反馈故障原因为xx,主要影响业务为xx; xx:xx分调度值班员向技术发展部xx汇报;xx:xx分xx运维分部反馈故障恢复正常,xx:xx分恢复正常;xx:xx分调度值班员向技术发展部xx汇报故障恢复正常。
4、NE-NOT-LOGIN\ NE-COMMU-BREAK(网元未登录\网元通讯中断告警)(1)TMS告警定位查看流程:
当告警原始原因为NE-NOT-LOGIN\ NE-COMMU-BREAK时,查看告警对象为XX站点XX设备XX网元,右键此条告警选择告警定位后进入传输拓扑图,若能直接定位到网元可直接双击进入设备面板图查看告警,若无法定位,点击分层加载图标将所有网元加载完毕后,在搜索一栏输入站点名称,选择告警对象中的网元型号进行定位。
(2)NE-NOT-LOGIN\ NE-COMMU-BREAK告警描述及原因:
告警描述:NE-NOT-LOGIN\ NE-COMMU-BREAK为网元未登录告警
告警原因:
①网元通讯故障;
②由R-LOS告警引起;
③ECC风暴(大面积产生网元未登录告警)。
(3)告警通知流程:
①查看是否有相关R_LOS告警引发NE-NOT-LOGIN\ NE-COMMU-BREAK告警,若有按照R_LOS告警处理流程进行。
②若没有相关R_LOS等告警发生且发生大面积网元未登录告警,调度值班员通知通信运检分中心生产值班员核查告警原因,并告知在45分钟之内反馈告警原因及影响的重要业务。
③若没有相关R_LOS等告警发生且单个网元未登录告警,调度值班员通知相关管辖运维分部生产值班员核查告警原因,并告知在45分钟之内反馈告警原因及影响的重要业务。