搜档网
当前位置:搜档网 › 故障处理流程

故障处理流程

故障处理流程
故障处理流程

故障处理流程

本章描述故障处理的流程和处理步骤。

? 2.1 故障处理总流程

本节描述故障处理的基本流程。

? 2.2 收集故障信息

本节描述收集故障信息的注意事项及途径、故障信息的种类。

? 2.3 判定故障

收集故障信息后,需要对故障现象作出判断,并确定故障的范围和分类。

? 2.4 定位故障原因

定位故障原因是通过一定的方法或手段分析、比较各种可能的故障原因,不断排除非可能因素,最终确定引发故障的具体原因。

? 2.5 排除故障

本节描述故障排除的方法和后续处理。

2.1 故障处理总流程

本节描述故障处理的基本流程。

故障处理总流程如图2-1所示。

图2-1 故障处理总流程图

2.2 收集故障信息

本节描述收集故障信息的注意事项及途径、故障信息的种类。

收集故障信息的途径

处理故障前,需要通过相关途径收集以下故障信息:

?故障的现象。

?故障发生的时间、地点、频率。

?故障的范围、影响。

?故障发生前设备运行状况。

?故障发生前对设备进行了哪些操作、操作的结果是什么。

?故障发生时设备是否有告警、告警的相关/伴随告警是什么。

?故障发生时是否有单板指示灯异常。

?故障发生后采取了什么措施、结果是什么。

收集故障信息可以通过以下途径:

?询问申告故障的用户/客户中心工作人员,了解具体的故障现象、故障发生时间、地点、频率。

?询问设备操作维护人员了解设备日常运行状况、故障现象、故障发生前的操作、故障发生后采取的措施及效果。

?观察单板指示灯,观察LMT上的告警管理系统以了解设备软、硬件运行状况。

?通过业务演示、性能测量、接口信令跟踪等方式了解故障发生的范围和影响。

说明:

应具有收集相关信息的强烈意识,在遇到故障特别是重大故障时,一定要先了解清楚相关情况后再决定下一步的工作,切忌盲目处理。

故障信息的种类

?告警信息

告警信息是指BSS告警系统输出的信息,通常以声音、灯光、LED(Light EmittingDiode)显示、屏幕输出等形式提供给维护人员,具有简单明了

的特点。查看告警信息是故障分析的主要手段之一。

告警信息主要包括故障或异常现象的具体描述、故障发生的原因、故障修复建议等。告警信息涉及硬件、链路、中继、CPU负荷等BSS的各个方面,信息量大且全,是进行故障分析和定位的重要依据之一。

告警信息主要用于查找故障的具体部位或原因。由于BSS告警系统输出的告警信息丰富、全面,因此经常可以用来直接定位故障的原因,或配合其他方法共同定位故障。

说明:

告警系统的使用说明请参见《BSC6900 GSM LMT用户指南》,每条告警处理的详细操作说明请参见《BSC6900 GSM告警参考》。

?指示灯状态

指示灯反映相应单板的工作状况以及电路、链路、光路、节点等的工作状态,是进行故障分析和定位的重要依据之一。

指示灯状态主要用于快速查找大致的故障部位或原因,为下一步的处理提供思路。由于指示灯所包含的信息量相对有限,因此经常与告警信息配合使用。以SCUa单板为例,SCUa单板指示灯如表2-1所示。

表2-1 SCUa单板指示灯说明

说明:

各单板指示灯的状态说明,请参见《BSC6900 GSM硬件描述》。维护人员平时应加强对单板指示灯含义的学习,以提高故障情况下的快速反应能力。

?业务拨测

业务拨测常用来判断BSS业务是否正常,并通过拨测收集故障详细信息。

包括:终端信令、网络侧信令、详细故障现象描述。

?仪器测量

运用仪器、仪表进行故障分析与定位,以直观、量化的数据直接反映故障的根因,是BSS 故障处理常用的技术手段,在电源测试、信令分析、波

形分析、误码检测等方面有着广泛的应用。某地掉话率较高,故障处理过程如下:

o用信令分析仪截取一些掉话的信令。

o分析该信令,发现掉话原因主要由于TA(Timing Advance)过大所导致,TA值接近63。

o更改数据配置,将小区半径缩小。

o修改数据配置后,掉话率降低。

说明:

关于仪器的使用方法,维护人员可参考相关仪器的使用说明书。

?话务统计

话务统计是分析业务类故障(掉话类、切换类等)有力工具,能够及时地找出引起业务类故障的主要因素并加以有效地防范。

话务统计分析经常与信令跟踪、信令分析等配合使用,在查找掉话率过高、切换成功率低、呼叫异常等业务类故障方面有着重要的作用。

说明:

话务统计的使用说明请参见《BSC6900 GSM LMT用户指南》,每个指标的含义请参见《BSC6900 GSM 性能指标参考》。

?消息跟踪

消息跟踪在分析用户呼叫接续、局间信令配合等过程的失败原因方面有着重要的应用,利用跟踪的结果,经常可以直接得到呼叫失败的原因,为后续分析提供宝贵的思路。

说明:

消息跟踪的使用说明请参见《BSC6900 GSM LMT用户指南》。

2.3 判定故障

收集故障信息后,需要对故障现象作出判断,并确定故障的范围和分类。

排除故障之前,维护人员根据收集的故障详细信息,对故障范围和类型进行判断。如果无从下手,请联系华为客户服务中心。

说明:

当发生严重故障、事故时,请联系华为客户服务中心。

2.3.1 故障范围分类

本节描述GBSS 故障处理指南处理的故障范围。

?CS话音类故障

?CS业务类故障

o切换类故障

o掉话类故障

o接入类故障

?PS业务类故障

o PS指标类故障

o PS信道类故障

o小区无PS业务类故障

?设备类故障

o IP传输类故障

o干扰类故障

o主分集接收通道故障

o无话务类故障

说明:

根据不同的故障现象进行故障判断,确定故障类别。各故障类别之间并不是割裂的,例如掉话类故障的原因可能是切换不及时导致的。本文在叙述此类情况时,直接链接到切换类故障的相应处理中,在掉话类故障处理中不再予以说明。

2.3.2 界定故障范围的方法

本节描述界定故障范围的方法。

?观察法

观察法是我们发现、界定设备故障范围的常用方法。观察的内容主要有设备告警、指示灯显示、LMT面板状态。

?TOP最值分析法

该方法主要用于性能指标劣化场景的故障范围界定。通过小区、载频对象指标的最值排序,确认劣化的性能指标是全局问题还是局部问题,从而做到抓大放小,最终解决问题。具体案例请参见4 切换类故障。

?环回法

环回法是界定故障网元范围的重要方法;环回法适用于传输类、链路类、语音类等;环回从实现分硬件环回、软件环回两种。具体案例请参见3.1.2 外部语音环回。

另外,通过环回判断传输设备、传输信道、业务状况、信令配合等情况是否正常,以确定相关硬件设备的状况、软件参数设置是否正常。环回是定位传输问题、中继参数设置是否正确等的最常用方法之一。在新建站点和中继扩容过程中,BSS中继自环也经常用于判断中继参数设置是否正确、信令链路数据设置是否正确。

说明:

在定位与传输相关的故障时,环回是一种常用的方法。

?排除法

在软件方面,排除法顾名思义就是把某一可疑功能、特性关闭掉,排除该功能特性对问题产生的影响。如果关闭了该功能(比如:射频调频),问题解决,那就是该功能引起的问题,否则该问题与此功能无关。

在硬件方面,如果怀疑单板方面故障,则可以直接替换单板排除硬件问题。

比如:我们在处理小区干扰问题时,如果怀疑小区干扰为同邻频干扰,则可以在条件允许情况下,更新小区频点为干净频点(比如:E频段),看干扰问题是否消失。

?找规律法

现网的问题多种多样,涉及因素广。对于此类问题,需要首要找出现象背后的规律,从而缩小问题范围,比如关注如下几点:

1.是否同一单板存在问题。

2.是否是集中在某一块DSP上。

3.是否同一传输通道存在问题。

4.是否同一载波存在问题。

5.是否某类手机存在问题。

6.是否某类信道存在问题。

7.是否均开启了某类特性,比如:Flex TSC、下行功控、主B降功耗

等。

8.凡是出现了告警,要观察告警是单个还是多个类似的告警。

比如:小区退服告警,我们需要关注此类退服是单小区退服,还是多个小区退服。

o如果是单个小区退服且本站点下的其它小区没有退服,则可能是该小区载频、配置存在问题;

o如果是多小区退服,需要判断这些小区有什么规律,处于同一个基站还是多站点。

?若处于同一个基站,则查看是否有传输类告警(LAPD断链

告警、OML故障告警、E1告警等)。如果有,则可能是站点

停电或者传输故障;

?如果多站点小区退服,则需要确认是否属于同一个片区(可

能片区停电或者挖断光纤)。

?对比/互换

对比是指将故障的部件或现象与正常的部件或现象进行比较分析,查出不同点,找出问题的所在。互换是指将处于正常状态的部件与可能故障的部件对调,比较对调前后二者运行状况的变化,以此判断故障的范围或部位。

o对比一般适用于故障范围单一的场合。

o互换一般适用于故障范围复杂的场合,常见的互换有如下几种:

1.载频互换、单板互换

2.传输互换

3.天馈互换

4.频点互换

比如:同站的一个小区干扰很大,而别的小区正常。在排查各种连线都无法解决的情况下,可对调同站正常小区与异常小区的天馈系统,看干扰是否随天馈走,如果是则问题出在天馈系统。参见12.4 互调干扰问题处理中的典型案例。

2.4 定位故障原因

定位故障原因是通过一定的方法或手段分析、比较各种可能的故障原因,不断排除非可能因素,最终确定引发故障的具体原因。

定位故障原因主要分为以下两类:

?定位业务类故障

o对于语音类故障和分组业务类故障,首先依次检查Abis、Um等接口,逐段定位,根据接口现象判断是否为BSS故障。如果是BSS

内部问题,再继续定位。

o对于切换类和接入类等故障,启动相关性能统计、信令跟踪,对照协议流程,判断故障点,逐个排查定位。

?定位功能子系统类故障

时钟类、接口链路类和设备类的故障种类虽多,但是故障范围较窄,一般伴随相关的告警提示。因此该类故障的原因相对简单,同时系统会有单板指示灯异常、告警和错误提示等信息。

2.5 排除故障

本节描述故障排除的方法和后续处理。

2.5.1 概述

排除故障是指采取适当的措施或步骤清除故障、恢复系统的过程,如检修线路、更换单板、修改配置数据、倒换单板、复位单板等。

排除故障应注意以下几点:

?根据不同的故障按照不同的操作规程操作,排除故障。

?排除故障之后要进行检测,以确保故障真正被排除。

?排除故障后应回顾故障处理全过程,记录故障处理要点,给出针对此类故障的防范和改进措施,避免同类故障再次发生。

说明:

当发生严重故障、事故时,请联系华为客户服务中心。

2.5.2 排除故障的方法

本节描述故障排除的方法。

?隔离法

隔离法就是将单个故障点从正常运行的业务单元中屏蔽掉,避免故障单元对正常业务的影响。

比较常见的问题比如DPU单板上的DSP故障,而用户短时间不便于替换整个单板,则可执行MML命令INH DSP隔离该DSP芯片。请参见7.4 杂音

故障处理中的典型案例。

?倒换/复位法

倒换是将业务从主用设备上全部转移到备用设备上,对比倒换后系统的运行状况,以确定主用设备是否异常。复位是指对设备的部分或全部进行手

动重启的操作,复位主要用于排除软件运行异常。

倒换/复位只能作为一种临时应急措施,请谨慎使用,原因如下:

o相比其他方法而言,倒换/复位只能作为定位故障的一种辅助手段。

o由于软件运行的随机性,倒换/复位后故障现象一般难以在短期内重现,从而容易掩盖故障的本质,给设备的安全、稳定运行带来隐

患。

复位操作通常会导致系统业务的中断,甚至可能由于操作不慎而导致系统瘫痪,给BSS 的日常运营带来严重的负面影响。例如:A接口全断、部分中断场景,对于此类严重问题,立即恢复业务为第一要务,则可按照如下步骤排除、恢复问题:

3.排查A口传输(看BSC是否有传输告警)

4.复位A口对端MSC接口板

5.倒换相应A接口板

6.如果分离模式,倒换相应BM框和TC框的Ater接口板

7.倒换SS7号所在XPU单板

8.在BM框Ater接口板对应端口做本地环回,看MTP2是否可以正常

收到自己发出的消息

?替换法

在现网运维中,替换法也是一种常用方法。在确保故障常用排查手段无效

情况下,可尝试问题单板、线缆、天馈等设备的替换。

说明:

0.替换法虽对技能要求不高,简单实用,但如果使用不当,会造成不

必要的返修件。因此在替换时要坚守一个原则“单板替换后,如果

故障现象仍不消失时,最好把原单板重新插回去,不要直接作为返

修件维修”。

1.如果现网条件不允许,没有可替换的单板,则可以尝试单板的插拔

(拔出后再插入)。

2.5.3 后续处理

本节描述故障解决后的处理方法。

?排除故障后,通过查询设备状态、查看单板指示灯和告警等方法确认系统已正常运行,并进行拨测,观察话统数据,以确保业务正常。

若无法排除故障,故障定位处理人员需收集相关故障定位信息,然后请联系华为客户服务中心

故障管理故障处理流程规定

故障管理和故障处理流程规定 (暂行稿) 工程运维中心 二〇〇八年八月 目录 第一章目的 (3)

第二章工程运维中心在95013业务维护管理中的职责 (3) 第三章 95013业务故障分类 (3) 第四章故障处理的原则: (4) 第五章故障处理时限要求。 (4) 第六章故障管理和故障报告制度 (4) 第七章故障通报制度 (5) 第八章故障处理及报告流程图 (5) 第九章工程运维中心内部处理流程 (6) 第十章外部支持流程(研发、建设和其他厂家) (6) 第十一章工程运维中心各部门及公司相关部门的责任 (7) 第十二章故障的跟踪管理 (7) 附件一:95013业务重大/严重故障分析报告 (9) 第一章目的 工程运维中心承担95013业务网络和平台日常维护工作,为规范故障管理和故障处理的工作流程,使网络和平台故障能够得到正确及时地处理,保证 95013业务安全稳定的运行,特制定本规定。 第二章工程运维中心在95013业务维护管理中的职责

a)工程运维中心网管中心值班工程师和各分公司运维人员承担95013业务的日常运行监控和维护工作。 b)工程运维中心运维组负责95013平台的故障处理;各地分公司运维人员负责现场支持,并负责协调当地运营商的运维支持。 c)建立故障通报制度,如发生重大故障,应按照故障等级和故障上报流程逐级向上汇报。 d)定期召开网络质量分析会,遇有重大故障,应及时召开故障分析会。 负责全公司运维人员的技术业务培训,提高运维人员的技术维护水平和工作能力。 第三章 95013业务故障分类 95013业务系统和网络故障分为重大故障、严重故障和一般故障。 1.重大故障:全部业务中断 2.严重故障包括: 一种以上业务全部中断≥60分钟 一省以上业务全部中断≥60分钟 用户注册、业务受理全部中断≥4个小时 3.一般故障:除重大故障、严重故障以外的其它故障。 第四章故障处理的原则: 先抢通,后修复;先核心,后边缘;先本端,后对端;先网内,后网外,分故障等级进行处理。 第五章故障处理时限要求。 1. 重大故障,故障处理时限≤2小时。

故障管理及故障处理流程规定

故障管理和故障处理流程规定 (暂行稿) 工程运维中心 二〇〇八年八月 目录 第一章目的 (3)

第二章工程运维中心在95013业务维护管理中的职责 (3) 第三章 95013业务故障分类 (3) 第四章故障处理的原则: (4) 第五章故障处理时限要求。 (4) 第六章故障管理和故障报告制度 (4) 第七章故障通报制度 (5) 第八章故障处理及报告流程图 (5) 第九章工程运维中心内部处理流程 (6) 第十章外部支持流程(研发、建设和其他厂家) (6) 第十一章工程运维中心各部门及公司相关部门的责任 (7) 第十二章故障的跟踪管理 (7) 附件一:95013业务重大/严重故障分析报告 (9) 第一章目的 工程运维中心承担95013业务网络和平台日常维护工作,为规范故障管理和故障处理的工作流程,使网络和平台故障能够得到正确及时地处理,保证 95013业务安全稳定的运行,特制定本规定。

第二章工程运维中心在95013业务维护管理中的职责 a)工程运维中心网管中心值班工程师和各分公司运维人员承担95013业务的日常运行监控和维护工作。 b)工程运维中心运维组负责95013平台的故障处理;各地分公司运维人员负责现场支持,并负责协调当地运营商的运维支持。 c)建立故障通报制度,如发生重大故障,应按照故障等级和故障上报流程逐级向上汇报。 d)定期召开网络质量分析会,遇有重大故障,应及时召开故障分析会。 负责全公司运维人员的技术业务培训,提高运维人员的技术维护水平和工作能力。 第三章 95013业务故障分类 95013业务系统和网络故障分为重大故障、严重故障和一般故障。 1.重大故障:全部业务中断 2.严重故障包括: 一种以上业务全部中断≥60分钟 一省以上业务全部中断≥60分钟 用户注册、业务受理全部中断≥4个小时 3.一般故障:除重大故障、严重故障以外的其它故障。 第四章故障处理的原则:

问题与故障处理流程图

NGBOSS3.0系统问题及故障管理流程 1、相关概念 1)问题定义:问题是一个或多个不知原因的事件。 2)问题与故障(或突发事件)的关系:当问题的影响符合故障(或突发事件)定义 标准时,问题即形成故障(或突发事件)。 3)故障处理小组:故障处理小组由各业务流的故障牵头处理人组成,共同完成故障 管理相关工作。目前业务运营中心故障处理小组包括话单流陈霞、订单流张嘉琦、账务流刘华、热线支持组马立娜及值班组阴衍亮。 2、故障处理 一、角色及职责定义 1)故障上报人 ●根据故障上报标准判断为故障后,第一时间按要求发出报告邮件,并电话通 知故障分派员。 ●对于符合故障或突发事件定义的问题,逐层升级至本部门主管经理;未达到 标准的通知主管,由主管酌情升级。 ●对于故障或突发处理过程中未按时限回复进展情况,由故障上报人直接升级 至故障分派员。 ●对于发生的故障,统一按业务运营中心内部要求进行登记。 ●故障上报人由业务运营中心50000号值班班长及运维组人员担当。 2)故障分派员 ●接收故障上报人的报障邮件和报障电话通知。

●根据故障情况,以邮件及电话方式指定故障处理牵头人。 ●根据故障牵头人要求,协助故障牵头处理人进行故障处理,跟进处理步骤, 监督执行。 ●故障分派员由值班组人员担任。 3)故障处理牵头人 ●牵头处理故障分派员分派的故障。 ●指派故障涉及的各部分人员协助进行故障处理,如有必要,可要求相关人员 现场支持。 ●跟踪整个故障处理过程,做好记录,评估各步骤的完成情况。 ●组织BMCC相关人员和相关厂商人员进行故障处理方案的制定,掌控整个过 程。 ●监督故障处理各重要步骤的执行,做好资源调度,在异常问题及时升级至相 关领导,协助完成资源调配。 ●在原因明确后、方案确认后、方案实施关键点完成后及时通报故障最新进展, 直至故障解决。。 ●根据故障处理情况及时向领导汇报故障处理情况。 ●与对外信息发布人及时沟通,协商确认对外发布口径。 ●记录问题处理过程,登记故障问题管理列表中的相关处理信息。 ●负责故障处理完成后,整理并填写故障分析报告,并按时提交。 ●总结及优化类似故障的处理步骤,为后续故障处理提供依据。 ●根据故障管理员的要求组织故障分析会、故障分享会,对故障进行总结分 析。

监控系统故障应急处置措施

监控系统故障应急处置措施 一、监测监控故障应急处理措施 故障处置负责人:张谦具体处置人员:刘海龙张雷 故障处置程序: 1、监控值班员发现传感器断线,或接到现场施工人员汇报传感器断线后,要立即向值班领导汇报。 2、根据领导指示检查监控主机设置是否正确,且是否将控制范围内电源切断。 3、联系施工现场班组长或电工,检查传感器航空插头线,并重接。如恢复故障处置完毕。 4、上述过程不能恢复,监控维修值班员要带好备件及抢修工具及时赶赴现场,到达现场后,监控维修值班员由施工队组电工配合,从分站到传感器各接点一一排查,直至更换传感器或更换分站接口。 4、故障处置完毕后,监控维修值班员在现场电话联系监控值班员确认数据上传是否正常。监控系统正常运行后方可上井。 (二)、分站断线不能上传数据。 故障处置程序: 1、监控值班员发现一分站所有传感器断线不能上传数据时,要立即向值班领导汇报。 2、根据领导指示检查监控主机设置是否正确,且是否将控制范围内电源切断,监控主机与该分站的网络通讯是否正常。a、如该分站的网络节点与监控主机通讯不正常,到环网交换机处更换分站网络

节点,由监控值班员重新设置。b、如该分站的网络节点与监控主机通讯正常,立即下井检查,分站电源供电是否正常、环网交换机与分站的连接线是否短路或断路,直至故障处置完毕。 3、故障处置完毕后,监控维修值班员在现场电话联系监控值班员确认数据上传是否正常。监控系统正常运行后方可上井。 (三)、环网交换机断线不能上传数据。 故障处置程序: 1、监控值班员发现若干分站所有传感器断线不能上传数据时,要立即向值班领导汇报。 2、根据领导指示检查监控主机设置是否正确,且是否将控制范围内电源切断,断线分站是否同属一台环网交换机,如不同属一台环网交换机,按分站断线处置。如同属一台环网交换机,立即检查监控主机与该环网交换机的所有网络节点的通讯是否正常。a、如该环网交换机的所有网络节点与监控主机通讯不正常,要及时赶赴现场检查环网交换机电源是否供电正常或现场更换环网交换机,由监控值班员重新设置。b、如该环网交换机的部分网络节点与监控主机通讯正常,立即更换故障分站的网络节点,由监控值班员重新设置。 3、故障处置完毕后,监控维修值班员在现场电话联系监控值班员确认数据上传是否正常。监控系统正常运行后方可上井。 (四)、监控主机故障,不能实时监控。 故障处置程序: 1、监控值班员发现监控主机不能运行时,要立即向值班领导汇

矿井安全监控系统断电故障处理程序示范文本

矿井安全监控系统断电故障处理程序示范文本 In The Actual Work Production Management, In Order To Ensure The Smooth Progress Of The Process, And Consider The Relationship Between Each Link, The Specific Requirements Of Each Link To Achieve Risk Control And Planning 某某管理中心 XX年XX月

矿井安全监控系统断电故障处理程序示 范文本 使用指引:此管理制度资料应用在实际工作生产管理中为了保障过程顺利推进,同时考虑各个环节之间的关系,每个环节实现的具体要求而进行的风险控制与规划,并将危害降低到最小,文档经过下载可进行自定义修改,请根据实际需求进行调整与使用。 1、中心站值班人员一旦发现矿井安全监控系统出现断 电故障,及时汇报监控系统责任人,之后根据故障状况, 若必要,尽快通知断电故障区域的瓦检员查看故障情况(包 括安全监控系统的故障闭锁情况),并及时汇报分管领导。 2、各类人员发现矿井安全监控系统出现断电故障时, 要及时向矿调度室汇报。矿调度室接到汇报后及时通知矿 值班领导。调度员接听汇报时要详细询间与记录断电故障 部位、故障状况、故障发生时间及汇报人情况。 3、值班监测电钳工与中心站位班员及时综合分析井 上、下反馈的断电故障状况,查找断电故障原因,确定合 理的故障处理方法与安全措施,尽快消除断电故障,并及

时将断电故障原因、处理结果向调度室汇报。 4、矿井安全监控系统出现断电故障时,值班监测电钳下、中心站值班员等人员不能排除断电故障或不能查清断电故障原因时,及时向分管矿领导汇报。 5、安全监控设备出现断电故障时,矿调度室接到关于受断电故障影响区域的汇报后,及时对故障所影响区域内的作业人员下达停止作业指令,并切断通往断电故障影响区域的所有非木质安全型电气设备的供电。 6、排除矿井安全监控系统断电故障的作业中,作业人员必须按操作规范进行验电、放电,严禁带电作业;验电、放电时要1人操作1人监护。 7、排除矿井安全监控系统断电故障中需用普通型测量仪表时,必须在风流中瓦斯小于1 %且附近20米内无瓦斯积聚的地点使用,并用甲烷检测报警仪实时监测作业地点的瓦斯状况,一旦风流中瓦斯达到1%或附近20米内出现

研发体系问题单处理流程

研发体系问题单处理流程

A:当前责任人要做的事情 S:问题单的状态 线上的文字,中文:判断结果;英文:在TRAC上对问题单的操作 1. 问题定位确认 测试人员发现问题后,如果是必现、确定的问题,直接提单;如果是无规律重现问题,或者不确定是否是问题,可以找相关开发人员进行测试现场定位分析,排除误操作等原因,确定问题现象及初步分析结论,由测试人员提单给定位责任人进一步跟踪; 2. 问题单提交 问题单严重程度有四个等级:致命、严重、一般、提示; 问题严重程度级别判定原则:问题级别判定应该就重不就轻,当问题现象可能符合多个问题级别定义的描述时,应该选择级别最严重的作为最终的问题级别。 致命

定义:产品的关键功能和性能不能符合用户要求,或由于产品质量原因造成业务中断、频繁瞬断或服务质量严重下降等可能给用户收益或声誉造成较大损失的问题。 举例:(包括但不限于下列情况) (1)整机或关键部件异常重新启动或瘫机; (2)由于产品质量原因造成的基本业务失效、部分失效及不能稳定提供; (3)可能影响用户收益或声誉的; (4)重要操作维护功能完全失效,例如用户无法对系统进行操作维护或操作维护经常被打断,无法对系统进行维护,告警功能完全丧失等; (5)系统性能基于上一个版本下降10%以上并可能影响用户收益或声誉的; (6)按照版本升级指导书操作导致系统升级失败; (7)其他可能造成业务中断、频繁瞬断或服务质量严重下降等可能给用户收益或声誉造成较大损失的问题,例如资源大量吊死、大量消息丢失、时钟丢失无法恢复等。 (8)产品不符合行业规范或目标客户群所在地区的相关标准,如果不解决将导致无法在该地区销售; (9)不符合安全规范,在遵守安全规程进行操作维护的情况下可能造成重大人身伤亡的问题; 严重 定义:在产品规格书或行业标准规定的条件范围内,系统的主要功能和业务性能不符合用户要求,或不能稳定运行,但仍然可以向用户提供基本的业务。 举例:(包括但不限于下列情况) (1)非基本业务功能失效或部分失效; (2)基本业务功能在特定的不常见的条件下的失效,例如在某异常情况下的处理不符合协议; (3)非关键性部件故障,这些部件的故障不会影响用户使用基本业务; (4)系统数据丢失或出现不一致但不会给用户带来损失; (5)系统未达到要求或设计的性能指标、系统或模块性能下降但不影响基本业务; (6)用户资料存在严重的技术错误或缺少重要技术内容; (7)其他各种可能对客户造成影响但尚未影响基本业务的问题; (8)部分主要功能操作很不方便,多数用户会认为这些操作方式显著影响工作效率;

故障处理流程

1 概述 随着PTN产品在全球的广泛应用,用户对产品的稳定运行要求也越来越高,相应对我们的维护工程师技能提出更高的要求。 《ZXCTN产品故障排查指导手册》是面向有一定PTN维护基础的中兴售后工程师, 通过对该手册的学习和应用,提高售后工程师的实际故障处 理能力,争取使售后工程师水平在较短时间内有明显提升。 本文分为故障处理流程、故障处理的常见方法、故障处理的常用命令和工具、故障反馈的方式和信息说明,以及常见故障排查和典型案例几个部分 进行描述。

2 故障处理流程2.1 故障处理总流程 图2-1 故障处理总流程图

2.2 紧急故障处理流程 紧急故障处理流程如图2-2所示。 图2-2 ZXCTN产品紧急故障处理流程图 流程说明: 1. 尽快恢复业务 出现紧急故障,承载的业务中断,如果有备用路由,请把业务割接到备用路由上。 2. PTN故障分类说明 除业务类故障外,还有其他OAM类故障,监控类故障等,可以根据其他的故障处理流程进行处理。 3. 设备告警、配置等情况检查 PTN产品配置比较复杂,现场若出现配置问题时,需要仔细排查网管、设备侧配置及运行状态是否正常,然后再转入设备类故障处理。

2.3 故障处理原则 在处理设备故障时,设备维护人员应该遵循一“查看”、二“询问”、三“思考”、四“动手”的基本原则。 1. 查看 维护人员到达现场后,首先应仔细查看设备的故障现象,包括:设备的故障点、告警原因、严重程度、危害程度。只有全面了解设备的故障现象, 才能透过现象看本质。 2. 询问 观察完故障现象后,应询问现场操作人员,有没有直接原因造成此故障,比如:修改数据,删除文件,更换电路板,停电,雷击。 3. 思考 根据现场查看的故障现象和询问的结果,结合自己的知识进行分析,进行故障定位,判断故障点和故障原因。 4. 动手 在通过前面三个步骤找出故障点后,维护人员可以采取适当的操作来排除故障,如:修改配置数据、更换板件。 2.4 故障定位的基本思路 2.4.1 故障原因 1. 工程问题 工程问题是指由于工程施工不规范、工程质量差等原因造成的设备故障。此类问题有的在工程施工期间就能暴露出来,有的可能在设备运行一段时 间或某些外因作用下,才暴露出来,为设备的稳定运行埋下隐患。 产品的工程施工规范是根据产品的自身特点并在一些经验教训的基础上总结出来的规范性说明文件,因此,严格按工程规范施工安装,认真细致的 按规范要求进行单点和全网的调试和测试,是防止此类问题出现的有效手段。 2. 外部原因 外部原因是指除传输设备以外导致设备故障的环境、设备因素,包括:(1)供电电源故障,如设备掉电,供电电压过低。

软件故障的常见原因分析和处理方法

软件故障原因分析 1 软件不兼容 有些软件在运行时与其他软件有冲突,相互不能兼容。如果这两个不能兼容的软件同时运行,可能会中止程序的运行,严重的将会使系统崩溃。比较典型的例子是杀毒软件,如果系统中存在多个杀毒软件,很容易造成系统运行不稳定。 2 非法操作 非法操作是由于人为操作不当造成的。如卸载程序时不使用程序自带的卸载程序,而直接将程序所在的文件夹删除,这样一般不能完全卸载该程序,反而会给系统留下大量的垃圾文件,成为系统故障隐患。 3 误操作 误操作是指用户在使用计算机时,误将有用的系统文件删除或者执行了格式化命令,这样会使硬盘中重要的数据丢失。 病毒的破坏。计算机病毒会给系统带来难以预料的破坏,有的病毒会感染硬盘中的可执行文件,使其不能正常运行;有的病毒会破坏系统文件,造成系统不能正常启动;还有的病毒会破坏计算机的硬件,使用户蒙受更大的损失。 4 软件的参数设置不合理。 一个软件特别是应用软件总是在一个具体用户环境下使用的,如果用户设置的环境参数不能满足用户使用的环境要求,那么用户在使用时往往会感觉软件有某些缺陷或者故障。文档在编辑过程中都可以正常显示.但是打印出来总是一张白纸。经过检查,发现故障计算机的Word系统设置了蓝底白字功能。在编辑时无法发现任何异常(因为是蓝色背景).但是在打印时.白纸上面是无法显示白字的.因此也就导致了故障现象的发生。

软件故障排除方法 1 安全模式法 安全模式法主要用来诊断由于注册表损坏或一些软件不兼容导致的操作系统无法启动的故障。安全模式法的诊断步骤为,首先用安全模式启动电脑,如果存在不兼容的软件,在系统启动后将它卸载,然后正常退出;接着再重新启动电脑,启动后安装新的软件即可,如果还是不能正常启动,则需要使用其他方法排除故障。这也是最常用的方法。 2 软件最小系统法 软件最小系统法是指从维修判断的角度能使电脑开机运行的最基本的软件环境,即只有一个基本的操作系统环境,不安装任何应用软件,可以卸载所有的应用软件或者重新安装操作系统即可。然后根据故障分析判断的需要,安装需要的应用软件。使用一个干净的操作系统环境,可以判断故障是属于系统问题、软件冲突问题,还是软、硬件间的冲突问题。该方法适合于系统安装的软件较少的时候使用。 3 程序诊断法 针对运行环境不稳定等故障,可以用专用的软件来对计算机的软、硬件进行测试,如3DMark、WinBench等,根据这些软件的反复测试而生成的报告文件,我们就可以比较轻松地找到一些由于系统运行不稳定而引起的故障。该方法相对比较专业,一般使用者无法顺利进行操作。 4 逐步添加/去除软件法 逐步添加软件法,以最小系统为基础,每次只向系统添加一个软件,来检查故障现象是否发生变化,以此来判断故障软件。逐步去除软件法,正好与逐步添加软件法的操作相反。该方法也是较常用的方法之一。

故障管理及故障处理流程规定

故障管理和故障处理流程规定 (暂行稿) 工程运维中心 二??八年八月 目录

第二章工程运维中心在95013业务维护管理中的职责 (3) 第三章95013 业务故障分类 (3) 第四章故障处理的原则: (4) 第五章故障处理时限要求。 (4) 第六章故障管理和故障报告制度 (4) 第七章故障通报制度 (5) 第八章故障处理及报告流程图 (5) 第九章工程运维中心内部处理流程 (6) 第十章外部支持流程(研发、建设和其他厂家) (6) 第十一章工程运维中心各部门及公司相关部门的责任 (7) 第十二章故障的跟踪管理 (7) 附件一:95013业务重大/严重故障分析报告 (9) 第一章目的 工程运维中心承担95013 业务网络和平台日常维护工作,为规范故障管理和故障处理的工作流程,使网络和平台故障能够得到正确及时地处理,保证95013 业务安全稳定的运行,特制定本规定。

第二章工程运维中心在95013 业务维护管理中的职责 a)工程运维中心网管中心值班工程师和各分公司运维人员承担95013业务的日常运行监控和维护工作。 b)工程运维中心运维组负责95013平台的故障处理;各地分公司运维人员负责现场支持,并负责协调当地运营商的运维支持。 c)建立故障通报制度,如发生重大故障,应按照故障等级和故障上报流程逐级向上汇报。d)定期召开网络质量分析会,遇有重大故障,应及时召开故障分析会。负责全公司运维人员的技术业务培训,提高运维人员的技术维护水平和工作能力。 第三章95013 业务故障分类 95013 业务系统和网络故障分为重大故障、严重故障和一般故障。 1.重大故障:全部业务中断 2.严重故障包括: —种以上业务全部中断》60分钟 一省以上业务全部中断》60分钟 用户注册、业务受理全部中断》4个小时 3.一般故障:除重大故障、严重故障以外的其它故障。 第四章故障处理的原则: 先抢通,后修复;先核心,后边缘;先本端,后对端;先网内,后网外,分故障 等级进行处理。 第五章故障处理时限要求。 1.重大故障,故障处理时限w 2小时

系统故障处理流程

节假日,非正常上班时间具体流程: 1.客服填写好系统故障描述.xls并以邮件的形式发出,若是节假日,非正常上班时间,客 服打电话通知第一联系人,第一联系人是**,第二联系人是** 2.第一联系人接到电话,并收到邮件后,网络硬件问题,5分钟内提交给**,若是软件问 题,下一步 3.在5分钟内将邮件提交给技术部值班人员,若在此时,第一联系人当时不能上网,联系 第二联系人查看邮件,第二联系人在5分钟内将邮件提交给技术部值班人员,若此时第一联系人或第二联系人不将邮件发出,则电话通知给技术部值班人,若第一联系人或第二联系人不通知给技术部值班人,则按公司系统维护奖惩制度处理。 4.技术部值班人员收到邮件后,在15分钟内a、将淘宝充值中的订单批量改成成功,b 、 根据故障描述.xls给出解决方案,并填写好技术解决方案记录单.xls,邮件发出。c、解决问题否,电话通知到第一联系人。此时若技术部值班人员当时不能上网,在15分钟后未给出任何解决方案,而且没有通知到第一联系人,则按公司系统维护奖惩制度处理。 5.第一联系人收到邮件或接到电话,在5分钟内将解决方案电话通知给客服。若没有在规 定时间通知客服,则按公司系统维护奖惩制度处理。

正常上班时间具体流程: 1.客服填写好系统故障描述.xls并以邮件的形式发出,并QQ通知 2.第一联系人并收到邮件后,网络问题,5分钟内提交给**,若是软件问题,下一步 3.在5分钟内将邮件提交给技术部**,若此时第一联系人或第二联系人不将邮件发出,则 按公司系统维护奖惩制度处理。 4.技术部**收到邮件后,在15分钟内a、将淘宝充值中的订单批量改成成功,b 、根据故 障描述.xls给出解决方案,并填写好技术解决方案记录单.xls,邮件发出。c、解决问题否,邮件并QQ通知到第一联系人。若此时若技术部在15分钟后未给出任何解决方案,一直查找原因,超过时间,没有邮件或QQ通知到第一联系人,则按公司系统维护奖惩制度处理。因为若淘宝业务超过40分钟,未给出交易订单状态,若订单成功,也不付款。 5.第一联系人收到邮件或接到电话,在5分钟内将解决方案邮件通知给客服,若没有在规 定时间通知客服,则按公司系统维护奖惩制度处理。

相关主题