搜档网
当前位置:搜档网 › IT运维紧急事故处理流程

IT运维紧急事故处理流程

IT运维紧急事故处理流程
IT运维紧急事故处理流程

一、IT运维紧急事故处理流程

1、名词定义

IT紧急事故:一般指即将或已经对IT应用系统、办公系统、信息安全、网络环境等出现较大范围影响的事件。例如一个以上厂房较大面积网络中断、公网IP被攻击或限制、邮件与oc等通信系统不能正常工作、通信光纤被破坏、防毒系统不能正常启动、监控系统中断、以及自然灾害对IT设施造成不能正常运行等。

二、事故管理流程(依据ITIL流程管理)

运维制度及流程

运行维护管理制度 2017年8月

目录3 3 3 5 6 6 7 8 8 9 9

1、总则 第一条为保障公司信息系统软硬件设备的良好运行,使员工的运维工作制度化、流程化、规范化,特制订本制度。 第二条运维工作总体目标:立足根本促发展,开拓运维新局面。在企业发展壮大时期,通过网络、桌面、系统等的运维,促进企业稳定可持续性发展。 第三条运维管理制度的适用范围:运维部全体人员。 2、编制方法 本实施细则包括运维服务全生命周期管理方法、管理标准/规范、管理模式、管理支撑工具、管理对象以及基于流程的管理方法。 本实施细则以ITIL/ISO20000为基础,以信息化项目的运维为目标,以管理支撑工具为手段,以流程化、规范化、标准化管理为方法,以全生命周期的PDCA循环为提升途径,体现了对运维服务全过程的体系化管理。 3、运维部工作职责 一、负责网站运维和技术支持 (一)根据网站运营战略和目标,负责网站整体架构、栏目、应用系统等技术开发方案制定和组织开发,保障网站技术的稳定性和先进性。 (二)负责网站栏目和应用系统的使用培训和操作使用指南编

写,对用户使用过程中出现问题的沟通和解决; (三)网站设备和软件购买计划书的拟定,包括采购数量、品牌规格、技术参数。会同行政部进行采购。 (四)网站设备和软件操作规程和应用管理制度的制定,并负责监督执行。 (五)网站设备和软件安装、调试和验收,使用培训和维修保养。 (六)网站日常运行过程中信息安全和技术问题的协调解决,保障网站24小时安全稳定运行。 (七)网站技术服务外包管理,主要包括技术外包开发、运行服务托管和空间域名管理。 (八)负责网站管理系统及设备保密口令的设置和保存,保密口令设置后报中心主任备案,保密口令设定后任何人不得随意更改,保密口令每季度更新一次。 (九)负责网站新程序、新系统和网站改版升级方案技术的设计开发。 二、负责网站信息和技术安全 (一)执行国家和省上有关网络信息技术安全的法律法规,与通信管理和网络安全监管部门联络,及时处理网站信息技术安全方面存在的问题,确保网站安全、稳定、可靠运行。 (二)网站信息技术安全保密制度和工作流程的制定,落实信息技术安全保密责任制,执行“谁主管、谁负责,谁主办、谁负责”的原则,责任到人。

公司运维服务规范

某公司运维服务规范 第一章总则 第一条为保障公司运维工作有序开展,规范运维工作和人员的服务要求,避免人为操作不当引起的重大、关健运维事故,根据电信公司及公司维护管理办法要求,特制定本规范。 第二条本规范是公司运行维护管理的基本依据,维护岗位人员必须严格遵照执行。 第三条本规定的最终解释权在技术质量管理部。 第二章适用范围 第四条本规定所指的系统是指公司及各部门承接的运维项目中涉及的范围,按合同约定包括:网络设备、服务器、操作系统、应用系统、数据及保障项目正常运行的各项辅助设施。 第五条本规定适用于对各部门运维分管领导、运维管理员、运维项目经理及成员等各维护岗位人员(包括各部门外包员工)的运维管理要求。 第三章运维服务要求 第六条运维岗位人员要具备良好的工作作风和严谨的工作态度,服从管理,认真负责,坚守岗位,在问题面前不推诿、不拖拉、不盲目、不蛮干,要冷静分析、沉着处理。 第七条遵照公司各项运维管理制度及客户运维工作要求,严格执行维护工作服务规范,确保人员、系统及各项设施安全。具体要求

包括: (一)、基本维护要求 1、遵守客户业务管理和现场管理要求。 2、周期性的维护工作应经客户审批同意后方可实施。 3、因故障修复、功能升级等引起的系统版本升级和割接工作应经客户测试通过后方可实施。 4、未经客户同意,各维护岗位人员不得私自对客户的在线系统进行数据变更、数据统计、应用程序变更、系统参数调整、硬件设备调整。 5、维护外包人员须经业务和管理培训,明确岗位职责,通过部门考核确认后方可上岗。在客户现场以理想公司员工身份执行维护工作,遵循各项运维管理制度。 6、定期检查所维护系统的安全状况,为客户提出合理的预防处理措施。 (二)、故障响应/处理制度 1、遵照公司(故障控制管理办法)要求,在接到故障报修通知后,及时与用户取得联系后进行排障,故障排除后填写故障修复信息。 2、各维护岗位人员应确保通讯工作24小时畅通。 3、严格执行故障处理和处理逐级上报制度。 (三)、信息记录(维护资料管理) 1、建立健全系统维护文档和记录资料库,相关资料由各部门妥

故障管理和故障处理流程规定

故障管理和故障处理流程规定 (暂行稿) 工程运维中心 二〇〇八年八月

目录 第一章目的 (3) 第二章工程运维中心在95013业务维护管理中的职责 (3) 第三章 95013业务故障分类 (3) 第四章故障处理的原则: (4) 第五章故障处理时限要求。 (4) 第六章故障管理和故障报告制度 (4) 第七章故障通报制度 (5) 第八章故障处理及报告流程图 (5) 第九章工程运维中心内部处理流程 (6) 第十章外部支持流程(研发、建设和其他厂家) (6) 第十一章工程运维中心各部门及公司相关部门的责任 (7) 第十二章故障的跟踪管理 (7) 附件一:95013业务重大/严重故障分析报告 (9)

第一章目的 工程运维中心承担95013业务网络和平台日常维护工作,为规范故障管理和故障处理的工作流程,使网络和平台故障能够得到正确及时地处理,保证 95013业务安全稳定的运行,特制定本规定。 第二章工程运维中心在95013业务维护管理中的职责 a)工程运维中心网管中心值班工程师和各分公司运维人员承担95013业务的日常运行监控和维护工作。 b)工程运维中心运维组负责95013平台的故障处理;各地分公司运维人员负责现场支持,并负责协调当地运营商的运维支持。 c)建立故障通报制度,如发生重大故障,应按照故障等级和故障上报流程逐级向上汇报。 d)定期召开网络质量分析会,遇有重大故障,应及时召开故障分析会。 负责全公司运维人员的技术业务培训,提高运维人员的技术维护水平和工作能力。 第三章 95013业务故障分类 95013业务系统和网络故障分为重大故障、严重故障和一般故障。 1.重大故障:全部业务中断 2.严重故障包括: 一种以上业务全部中断≥60分钟 一省以上业务全部中断≥60分钟 用户注册、业务受理全部中断≥4个小时 3.一般故障:除重大故障、严重故障以外的其它故障。

问题与故障处理流程图

NGBOSS3.0系统问题及故障管理流程 1、相关概念 1)问题定义:问题是一个或多个不知原因的事件。 2)问题与故障(或突发事件)的关系:当问题的影响符合故障(或突发事件)定义 标准时,问题即形成故障(或突发事件)。 3)故障处理小组:故障处理小组由各业务流的故障牵头处理人组成,共同完成故障 管理相关工作。目前业务运营中心故障处理小组包括话单流陈霞、订单流张嘉琦、账务流刘华、热线支持组马立娜及值班组阴衍亮。 2、故障处理 一、角色及职责定义 1)故障上报人 ●根据故障上报标准判断为故障后,第一时间按要求发出报告邮件,并电话通 知故障分派员。 ●对于符合故障或突发事件定义的问题,逐层升级至本部门主管经理;未达到 标准的通知主管,由主管酌情升级。 ●对于故障或突发处理过程中未按时限回复进展情况,由故障上报人直接升级 至故障分派员。 ●对于发生的故障,统一按业务运营中心内部要求进行登记。 ●故障上报人由业务运营中心50000号值班班长及运维组人员担当。 2)故障分派员 ●接收故障上报人的报障邮件和报障电话通知。

●根据故障情况,以邮件及电话方式指定故障处理牵头人。 ●根据故障牵头人要求,协助故障牵头处理人进行故障处理,跟进处理步骤, 监督执行。 ●故障分派员由值班组人员担任。 3)故障处理牵头人 ●牵头处理故障分派员分派的故障。 ●指派故障涉及的各部分人员协助进行故障处理,如有必要,可要求相关人员 现场支持。 ●跟踪整个故障处理过程,做好记录,评估各步骤的完成情况。 ●组织BMCC相关人员和相关厂商人员进行故障处理方案的制定,掌控整个过 程。 ●监督故障处理各重要步骤的执行,做好资源调度,在异常问题及时升级至相 关领导,协助完成资源调配。 ●在原因明确后、方案确认后、方案实施关键点完成后及时通报故障最新进展, 直至故障解决。。 ●根据故障处理情况及时向领导汇报故障处理情况。 ●与对外信息发布人及时沟通,协商确认对外发布口径。 ●记录问题处理过程,登记故障问题管理列表中的相关处理信息。 ●负责故障处理完成后,整理并填写故障分析报告,并按时提交。 ●总结及优化类似故障的处理步骤,为后续故障处理提供依据。 ●根据故障管理员的要求组织故障分析会、故障分享会,对故障进行总结分 析。

运维管理制度

运维管理制度 XXXXXX有限公司2014年5月18日

目录 引言 (1) 1、总则 (2) 2、编制方法 (2) 3、运维部工作职责 (2) 3.1系统运维和技术支持 (2) 3.2.平台信息和技术安全 (3) 4、运维服务管理体系 (4) 4.1运维服务管理对象 (4) 4.2运维系统功能框架 (4) 4.3运维管理组织结构 (5) 4.3.1项目负责人 (5) 4.3.2项目经理 (5) 4.3.3技术主管 (6) 4.3.4服务台 (6) 4.3.5网络管理员 (7) 4.3.5应用、数据库管理员 (7) 4.3.7终端管理员 (7) 4.4运维服务流程 (8) 4.4.1项目运维服务工作流程图 (9) 4.4.2服务台 (9) 4.4.3事件管理 (10) 4.4.4工单管理 (10) 4.4.5问题管理 (10) 4.4.6变更管理 (10) 4.4.7配置管理 (11) 4.4.8知识库管理 (11) 4.4.9统计及工作报告 (11) 5、运维服务内容 (11) 5.1服务目标 (11) 5.2IT资产统计服务 (12) 5.3网络、安全系统运维服务 (12) 5.4主机、存储系统运维服务 (13) 5.5数据库系统运维服务 (13) 5.6中间件运维服务 (14) 5.7终端、外设运维服务 (14) 6、应急服务响应措施 (14) 6.1应急预案实施基本流程 (15) 6.2突发事件应急策略 (15) 7、服务管理制度规范 (16) 7.1服务时间 (16) 7.2行为规范 (16)

001-2 办公信息系统协同管理及协同数据交换策略研究运维制度引言 本文件是依据《XXXXXX系统协同管理及数据交换策略研究》分任务要求,完成“运维制度”的研究工作。 课题组参照国际国内标准有: ITIL/ISO20000标准 GBT 28827.1-2012 信息技术服务运行维护第1部分:通用要求 GBT 28827.2-2012 信息技术服务运行维护第2部分:交付规范 GBT 28827.3-2012 信息技术服务运行维护第3部分:应急响应规范 结合XXX课题应用实施及运维管理的实际情况研究、编制运行维护管理制度,本文分为7章内容分别为: 1.总则 2.编制方法 3.运维部工作职责 4.运维服务管理体系 5.运维服务内容 6.应急服务响应措施 7.服务管理制度规范等内容。

运维体系说明

运维体系说明 文稿归稿存档编号:[KKUY-KKIO69-OTM243-OLUI129-G00I-FDQS58-MG129]

投标人运维体系说明我公司为用户提供免费技术服务热线,在接到用户请求后,根据请求情况协调公司资源,第一时间给用户反馈并解决问题。 运维组织架构 运维流程 技术支持服务热线工作流程图 1、诊断故障并提交故障诊断报告 根据系统运行过程中出现的系统故障或其它异常情况,及时进行故障诊断,并提出故障诊断报告。故障诊断报告的主要内容包括:故障现场情况记录、故障的级别和紧急处理过程记录等。 2、制定系统维护和故障恢复的实施计划 根据提交的故障诊断报告,制定系统维护和故障恢复的实施计划。按照制定的计划实施系统维护工作。 3、管理、监督维护计划的实施 组成系统维护工程管理和监督工作组,全面负责管理和监督系统维护工作实施过程(应包含用户方与项目承包商双方)。并根据系统维护实施的各个阶段提交维护工作报告。 4、确认维护工作完成并提交维护报告 在系统维护工作完成后,由系统维护人员提交系统维护工作报告,由用户方项目组的技术人员对系统维护情况进行测试并予以确认。 5、提交成果 每次系统维护工作完成后,都应提交如下的报告、记录等文档等资料:

故障诊断报告 系统维护和故障恢复的实施计划 维护工作阶段报告 系统维护工作报告 说明:紧急情况下,以排除故障,满足用户需要为首要任务,可以进行紧急处理,但事后要补充相应文档与记录。 现场服务流程 众所周知,最优的售后服务是一个项目的承建商必须做出的承诺。但是,如何根据用户的实际情况(人员素质、计算机应用水平、系统的要求等),做出切合实际的项目售后服务计划书,才是用户关注的问题。优质的售后服务也一直是我们公司在经营活动中最基本的原则。公司的技术支撑部门担负着专业的服务工作,无论是在系统的安装调试过程中还是在系统投入运行之后,无论发生任何问题用户都可以得到最快的响应,售后服务流程如下图所示: 售后服务流程 社会保险的组织结构、计算机应用水平、系统对人员素质要求等情况的分析,我们认为:社会保险信息系统稳定运行是保证本项目建设成功的一项关键因素。 公司提供的服务内容包括: 应用软件运行维护:应用软件自身缺陷的调整,为客户及时解决日 常运行中出现的问题。

日常运维管理制度

日常运维管理制度 令狐采学 1.运维保障机制 (1)建立硬件、网络、系统、应用及业务软件日常维护流程机制; (2)建立故障应急处理流程机制; (3)建立备份恢复保障机制; (4)建立安全保障管理机制; (5)建立版本管理机制,管理平台生产环境运行的软件版本; 以上机制应形成文档,作为日常遵循规范,按要求执行。2.硬件维护能力 需对硬件设备具备7*24小时不间断的支持、响应能力,原则上每日对硬件设备至少健康检查一次并记录;定期对网络环境进行检查。我公司服务器部署在移动云上定期通过命令进行硬件检测,内存、硬盘、I/O的使用情进行查询并进行登记,每台服务器运行的软件对硬件性能使用情况检测,对于服务器我们进行系统备份、软件,每日对网络使用情况进行观察,针对突发异常流量进行分析。

3.故障处理响应及要求 设备(系统)出现故障时,根据不同的故障级别提供相应的服务响应,响应方式及要求如下: 4.具备应急预案 针对部署国家平台节点服务器我们实施系统备份、软件重要数据实时备份,主机备份是提供的保留某个时间点上的主机系统数据状态的服务。基于主机备份可以随时生成或删除备份,并基于已备份进行主机的恢复,实现已有应用和主机数据

的快速复用,如系统出现事故无法使用将进行系统恢复并把最近一次备份的数据进行恢复。对于突发情况建立应急服务流程,主要是针对可能发生的各种意外情况设计应急的方案,以控制和规避突发事件带来的集中性风险,从而降低设备集中性风险所造成的损失,制定以下流程图: 为保证服务实施的质量能够稳定并不断有所提升,保障客户需求能够得到有效满足,保障服务实施团队为客户提供统一、标准

(完整word版)运维系统及中心机房应急预案

运维小组应急预案 随着网络信息化建设的不断深入,加强机房各类设备、系统以及信息与网络安全等方面应对突发事件的处理能力将是我们目前面临的一项重要任务。为确保系统及机房安全与稳定,以保证正常运行为宗旨,按照“预防为主,积极处置”的原则,本着建立一个有效处置突发事件,建立统一指挥、职责明确运转有序、反应迅速处置有力的机房安全体系的目标,将正在发生或已发生事故的损害程度减轻到最低,确保员工安全,特制定本应急处置预案。 本预案共分为应用系统故障应急流程和机房突发事件应急流程 系统故障应急流程 一、系统故障应急流程说明 1、故障发生 系统运维服务小组可从以下途径得知故障的发生: 1.1、运维服务中心通过网管告警发现故障 1.2、维护站点通过维护巡检发现故障 1.3、用户发现故障,报给呼叫中心 1.4、驻场工程师发现故障 2、报障受理 监控系统运维服务小组得知系统故障发生后,立即响应,并向报障人或单位详细了解系统故障情况。 3、信息研判 运维服务小组根据了解到的系统故障情况进行分析判断,以确定采用一般故障处理流程还是立即启动系统突发故障应急处理预案。 4、预案启动 如需启动应急预案,则立刻通知系统突发故障应急领导小组,由领导小组启动应急预案,对系统突发故障应急事件进行全面管控处理。 5、资源确认

系统突发故障应急预案启动后,首先是根据现场突发故障实际状况、紧急程度、技术难度、备品备件等情况对相关资源(主要是参与人员)依据经验进行调度和确认,主要有以下资源: 我公司技术支持人员; 相关厂家技术支持人员; 我公司聘请的技术专家 6、预案执行 按照既定的预案进行突发故障抢修,如遇到问题及时向系统突发故障应急领导小组汇报。 7、预案终止 预案的终止时间由故障现场技术人员根据现场的实际进展情况,在与用户单位有关部门协调后报系统突发故障应急领导小组决定。 8、结果上报 预案中止后,相关预案参与人员将整个事件过程中的经验和教训,修改、完善事件应急预案。然后集中上报至系统突发故障应急领导小组。

IT运维服务操作流程及指导规范

服务流程管理 一、服务操作及管理流程 1.故障响应流程 为了保障故障响应的及时、高效、准确,我公司专门为本项目的常驻人员设计了故障响应流程,所有工程师都必须严格按照流程处理相关事项。 该流程的产出物为《故障原因分析及处理报告》

第 2 页

2.服务准备流程 在进行日常维护的时候,有一些工作需要提前进行准备,这就要求制订一个可行的服务准备流程。该流程的相关产出物《派工单》、《技术服务单》、《外出登记表》。 第 3 页

3.故障处理流程 这是维护工作中比较核心的一个流程,其主要产出物为《CASE(案例)记录表》,同时《技术服务单》及《故障原因分析及处理报告》在此流程中将得到更新。 第 4 页

4.重大维护处理流程 当遇到重大维护工作需要进行的时候,现场常驻技术支持人员不能够或不足以解决时,我公司安排立即安排足够人数的二线技术人员和公司技术专家进行现场技术支持服务,并且我公司将给予全力支持提供应急服务分析常见的、关键的薄弱环节,搭建模拟测试环境找出解决方案。 第 5 页

5.隐患处理流程 如果对于系统中存在的隐患不加以重视,最终极有可能造成严重的后果。为此我们还针对本项目专门涉及了一个隐患处理流程。 当发现系统中存在隐患的时候,我公司将组织二线支持人员,甚至是从公司调派专家和联系原厂商进行技术支持,以判明隐患的潜在影响程度。 如果隐患的严重程度较高,我公司服务人员将转为按照《重大维护工作处理流程》进行处理。以期将隐患消灭在刚发现之时,避免发展成影响系统运作的故障。 在该流程中将生成文档《系统隐患报告》和《系统隐患分析报告》。

监控中心管理制度与故障处理流程图

监控中心(长寿)管理制度 1、监控中心人员管理制度 2、监控中心值班制度 3、监控中心交接班制度 4、监控中心安全保密制度 5、在线监测系统异常情况报告流程 6、视频监控系统故障处理制度 7、报表管理制度 监控中心人员管理制度 一、监控中心工作人员基本要求 1、掌握计算机专业基础知识和基本操作技能。 2、应经过必要的岗位培训,熟悉在线监测(监控)系统相关业务基本操作规程,具备一定的政治素质和良好的合作精神。 3、要熟练掌握监控系统操作技术,熟悉中心设备的性能和使用方法,爱护中心设备,严格按规程进行操作。 4、熟练掌握各种报警情况的处置方案,发现重大问题要积极做出反映,迅速通知运维人员并上报有关领导,不得延误。 5、值班人员当班期间须统一制服,佩戴标志标牌。 6、服从领导,完成领导交办的其他工作任务。 二、工作职责 1.当班期间,定时查看中心监控系统包括设备、信号传输、系统平台、电源系统的运 行状态,查看前端DVR、摄像机是否在线,查看有无视频丢失,检查摄像机图像显示是否正常,发现问题及时联系维护人员解决。每班至少对各站点监控系统巡查4次。 2.当班期间,随时查看在线监测系统各站点在线监测设备运行情况,发现设备或超标 报警根据相关流程进行处理上报,并及时联系维护人员解决。 3.现场仪器远程操作备案登记,严禁值班人员私自远程操作现场设备,如需进行远程 控制仪器,需经过相关领导同意并做好相关记录。 4.当班期间,如需要使用大屏及会议系统,值班人员需能熟练操作大屏系统并做好相 关使用记录。 5.定期对平台软硬件及相关设施进行日常维护、巡检,并记录维护巡检情况。 6.严格遵守保密制度,不得向任何个人和机构透漏、传播或复制监测数据、监控信息、 图像资料等。 7.遵守中心管理,不得擅自改变中心设备、设施的位置和用途。 8.按规定做好交接班工作,并严格按要求填写值班记录。 9.遇到系统升级或维护,应当积极配合技术人员工作。 10.保持室内(含会议室)卫生清洁。

IT运维服务台工作细则.doc

IT运维服务台工作细则 目的依据和适用范围为了规范IT 报修流程、提高IT 运维效率,提升用户满意度,科学规范地统计工程师工作量,根据《信息化运行维护程序》,特制定本细则。本细则适用于全集团。 概览图 概述 用户职责 角色及职责服务台职责 工程师职责 故障提报 服务台受理 故障处理流程 工程师处理、反馈 IT 运维服务台 过程跟踪 工作细则 用户评价 投诉提报 服务台核实 投诉处理流程 投诉处理及反馈 用户评价 记录表单 1. 概述 服务台是支持IT 运维服务的核心功能,与各个流程联系密切。所有用户都要通过 服务台进行咨询、报修、投诉等操作,服务台负责为用户解答相关问题和需求、为用 户派遣现场工程师、处理用户投诉、记录统计工程师工作量等。 2. 角色及职责 服务台工作中涉及的角色主要有用户、服务台、运维工程师等。 2.1 用户职责 2.1.1 按着相关规范及要求正确使用IT 相关资源,及时查看IT 运维相关通知及要求; 2.1.2 遇到故障及时按流程向IT 运维服务台报修,报修尽量详细描述故障情况;

2.1.4 遇到不满意的服务可向IT 运维服务台进行投诉。 2.2 服务台职责 2.2.1 负责IT 业务的报修、投诉事件的受理工作; 2.2.2 故障处理的发起人,同时进行维护工程师指派,跟踪事件处理状态; 2.2.3 进行维护故障统计、用户满意度统计、工作报表输出等工作; 2.2.4 进行工程师工作量统计、考核、工资核算等。 2.3 工程师职责 2.3.1 对自己负责区域设备进行日常巡检,防范故障发生。 2.3.2 受理服务台派单,及时对用户故障进行处理。 2.3.3 总结工作经验,编制运维知识文档。 3. 故障处理流程 3.1 故障提报 3.1.1 自动监控系统提报 建立自动监控系统,可以监控服务器、应用系统、网络设备等运行状态,当监控系统 出现故障报警时,应该将故障情况提报到服务台,由服务台跟踪故障处理情况。 3.1.2 用户报修 当用户遇到IT 相关疑问或故障时,可通过微信、电话、网站三种途径中任意一种向服 务台提报需求,用户提报需求应该尽量详细描述问题。微信报修具体方法见《IT 运维服务平台微信版本使用方法》。 报修电话:内线: 报修网站:http:// 3.2 服务台受理 服务台收到故障提报后,自动或手动形成服务工单,并根据故障情况分析、初步判断 故障原因,如果服务台不能通过电话或远程协助解决故障,则需要根据故障原因派遣相应 的工程师进行处理,服务台派单时应该考虑故障产生原因、工程师职责、及工作量等因素。 3.3 工程师处理 当工程师接到派单时,应该在10 分钟内做出响应,并尽快对故障进行处理。故障处理结束后,工程师应按要求填报处理结果并提报服务台。 3.4 过程跟踪 服务台应该在故障处理阶段,对故障处理的进度、变更等环节进行跟踪、监督经管。 当工程师在故障处理过程中遇到困难时,服务台应该派遣更高级别的工程师或厂家进行支 持, 直到故障最终解决。 3.5 用户评价 当故障处理过程结束后,用户有权对故障处理过程中运维人员的响应速度、服务态度、处理结果等进行评价,用户的评价将作为工程师考核的数据来源之一。 3.6 流程图

运维服务部门管理流程图

运维服务部管理流程说明

目录 1引言 (4) 1.1 编写目的 (4) 1.2 编写说明 (4) 2维护理念 (4) 2.1 维护宗旨 (4) 2.2 维护围 (4) 2.3 响应服务速度 (5) 3维护保证 (5) 3.1 提供统一接口 (5) 3.2 提供标准化的服务质量 (5) 3.3 服务支持手段 (6) 4维护类型 (6) 4.1 主动式服务 (6) 4.1.1维护质量审计 (6) 4.1.2客户满意度调查 (6) 4.2 被动式服务 (7) 4.2.1及应答服务 (7) 4.2.2远端服务 (7) 4.2.3现场服务 (7) 4.3 人性化服务 (7) 5维护制度 (7) 5.1 值班制和专人维护制 (7) 5.2 服务监督机制 (8) 5.3 客户回访制度 (8) 5.4 故障定义及报告制度 (8) 5.4.1.1 故障级别 (8)

5.5 节假日服务保障制度 (9) 6维护管理流程 (10) 6.1 运维组周例会 (10) 6.1.1说明 (10) 6.1.2提交文档 (10) 6.2 运维人员周报 (10) 6.2.1说明 (10) 6.2.2提交文档 (10) 6.3 规使用 (11) 6.4 维护审计 (11) 6.4.1维护过程审计 (11) 6.4.2软件管理审计 (12) 6.4.3硬件管理审计 (12) 6.4.4文档审计 (12) 7客服流程 (13) 7.1 定期类维护 (14) 7.1.1每日 (14) 7.1.1.1 工作容 (14) 7.1.1.2 提交文档 (15) 7.1.2每周 (15) 7.1.2.1 工作容 (15) 7.1.2.2 提交文档 (16) 7.1.3每月 (17) 7.1.3.1 工作容 (17) 7.1.3.2 提交文档 (18) 7.1.3.3 注意事项 (18) 7.2 不定期类维护 (18) 7.2.1需求变更 (19)

运维部组织架构、岗位说明与工作流程图

运维部组织架构、岗位说明及工作流程附件一: 运维部组织架构 一、部门组织架构图

.附件二:运维部岗位设置 运维部下设传输交换室、基础网络室、综合调度室、业务支撑室四个机构,具体岗位设置和人员编制如下:

各室职责如下: 一、综合调度室 1、负责综合性管理工作,包括收发、文秘、内务、公关、接待等; 2、负责编制各种规章制度及本部门年度工作计划、总结、预算等; 3、协助制定、汇总运行维护考核指标,并参与实施; 4、负责补缺配套、大修、更新改造计划、维护成本管理及其配合实施工作; 5、负责网络资源数据的维护管理、资源调配管理、网络资源优化管理; 6、负责接收工程建设、维护生产、业务发展、网元出租等资源需求,并组织调配; 7、负责全网具体网络组织、设备端口、传输电路、光纤等资源日常通信组织调度 工作; 8、负责全网光缆、传输、接入网、数据网、动力、管线等设备资源动态调整组织 工作; 9、负责网络资源数据的管理及资源使用情况的统计、分析和预警,参与网络规划 等相关工作,提出网络优化建议并负责组织实施。 二、基础网络室 1、负责光纤通信系统的线路、机房和用户机线的运行维护管理工作; 2、负责制订本专业运行维护考核指标,并参与实施; 3、配合做好本专业支撑系统的应用开发和组织实施工作; 4、配合做好本专业的业务支持、网络规划和工程验收工作; 5、负责管理、协调管线及机房代维单位的相关工作;监督、管理各分公司的代维 管理工作。

三、传输交换室 1、负责传输、数据多媒体交换、接入网的运行维护管理工作; 2、负责互联网的网络安全管理工作,做好信息安全管理工作; 3、负责动力电源、空调设备的运行维护管理工作; 4、负责制订本专业的运行维护考核指标,并参与实施; 5、配合做好本专业支撑系统的应用开发和组织实施工作; 6、配合做好本专业的业务支持、网络规划和工程验收工作。 四、业务支撑室 1、负责全网各类网络支撑系统(OSS)、各类业务支撑系统(BSS)的统一规划、 统一建设、维护管理,制订技术规范和技术标准; 2、负责利用支撑系统开放业务的支持工作,制订相应技术方案,并组织实施; 3、负责支撑系统的计算机系统的软件、硬件的升级、改造的管理工作,负责各专 业应用系统的软件版本管理; 4、负责制订本专业的管理办法和考核指标,并参与实施。 5、作为对内部客户的统一接口,负责公司内市场部等专业部门提出的综合性业务 的组织实施工作;对大客户和集团客户的综合性业务需求进行业务集成。6、利用网络现有能力或者挖掘网络潜在能力策划出新的产品,主动推荐给市场部 门,由市场部门选择、包装后推向市场。

运维故障处理思路

事件/故障处理应该要有什么思路 导读: 在讲解事件、故障处理思路前,我先讲一个故障场景(以呼叫中心系统作为一 例子): 业务人员反映呼叫中心系统运行缓慢,部份电话在自助语言环节系统处理超时,话务转人工座席,人工座席出现爆线情况。 运维人员开始忙活了,查资源使用情况、查服务是否正常、查日志是否报错、 查交易量还有没有……时间不知不觉的在敲键盘、敲键盘、敲键盘中过去,但 是原因还未定位。 经理过来了解情况:“系统恢复了吗?”、“故障影响是什么?”、“交易中 断了吗?”…… 运维人员赶紧敲键盘,写sql,看交易量;敲键盘,写命令,看系统资源、情况…… 最终,定位到问题原因是其中一个功能没有控制返回数量,导致内存泄露。 针对这个故障,业务希望运维能否更快的解决故障的恢复,经理希望制定优化 呼叫中心故障处理流程,做了以下几件事: 1.优先故障处理过程的时间——”能通过鼠标完成的工作,不要用键盘“ 2.提前发现故障,加强监控——“技术早于业务发现问题,监控不仅是报 警,还要协助故障定位” 3.完善故障应急方案——“应急方案是最新的、准确的、简单明了的” 4.长远目标:故障自愈——”能固化的操作自动化,能机器做的让机器做 “ 下面将从故障常见的处理方法开始介绍,再从故障前的准备工作(完善监控、 制定应急方案等方式)来解决经理提出的问题,并提出未来解决故障的想法。 1、常见的方法: 1)确定故障现象并初判问题影响 在处理故障前,运维人员首先要知道故障现象,故障现象直接决定故障应急方 案的制定,这依赖于运维人员需要对应用系统的整体功能有一定的熟悉程度。 确认了故障现象后,才能指导运维人员初判断故障影响。

2012运维操作手册及故障处理流程

1、运行操作 1.1 1.1操作前检查事项 11前需对一些先决条件进行检查,检查内容包括检查归档日志目录、对应用当前状态等的检查。先决条件都满足之后方可启动11的加载。 按照以下步骤检查: 1.1.1检查归档日志目录 使用oracle/oraclemv用户登录DEP数据库188.1.6.101,敲入命令:df –g,检查文件系统/dev/oraarc01的使用率情况,如图3.2.1.2所示: 图3.2.1.2 如果归档日志使用率高于50%,则需要联系珠海客户方马华兵或王虎,由他们决定是否直接进行清理或由他们联系营运中心进行清理。(除月末和年底外,正常工作日期dep一个完整的加载过程归档日志增长40%左右) 注意如遇特殊情况,如周一白天加载周六日数据或节假日后一天当中追加好几天的数据时,加载过程中注意监控归档日志的使用率,加载中如出现高于90%的情况,要马上进行处理。 1.1.2检查当前状态 在浏览器中输入使用admin用户进入11管理应用前台: 1)检查触发器状态,应为停止状态 在左边的菜单树中选择工作管理->触发器定义,查询当前触发器的状态,如图3.2.1.3-1所示:

图3.2.1.3-1 查询结果,三个触发器的状态为停止作为启动当日增量的先决条件 2)检查DEP系统工作日期 在左边的菜单树中选择系统配置->系统参数配置,查询当前工作日期,如图3.2.1.3-2所示: 图3.2.1.3-2 当前工作日期应为所加载增量数据的日期为启动增量加载的先决条件;查看当前阶段信息,当前一日数据加载完成,所有数据处理阶段运行完成后为启动当日增量加载的先决条件。 3)检查当前阶段状态 在左边的菜单树中选择监控与调度->当前工作状态,当前阶段状态循环结束、阶段状态完成,为当日启动增量加载的先决条件,如图3.2.1.3-3所示:

故障管理及故障处理流程规定

故障管理和故障处理流程规定 (暂行稿) 工程运维中心 二??八年八月 目录

第二章工程运维中心在95013业务维护管理中的职责 (3) 第三章95013 业务故障分类 (3) 第四章故障处理的原则: (4) 第五章故障处理时限要求。 (4) 第六章故障管理和故障报告制度 (4) 第七章故障通报制度 (5) 第八章故障处理及报告流程图 (5) 第九章工程运维中心内部处理流程 (6) 第十章外部支持流程(研发、建设和其他厂家) (6) 第十一章工程运维中心各部门及公司相关部门的责任 (7) 第十二章故障的跟踪管理 (7) 附件一:95013业务重大/严重故障分析报告 (9) 第一章目的 工程运维中心承担95013 业务网络和平台日常维护工作,为规范故障管理和故障处理的工作流程,使网络和平台故障能够得到正确及时地处理,保证95013 业务安全稳定的运行,特制定本规定。

第二章工程运维中心在95013 业务维护管理中的职责 a)工程运维中心网管中心值班工程师和各分公司运维人员承担95013业务的日常运行监控和维护工作。 b)工程运维中心运维组负责95013平台的故障处理;各地分公司运维人员负责现场支持,并负责协调当地运营商的运维支持。 c)建立故障通报制度,如发生重大故障,应按照故障等级和故障上报流程逐级向上汇报。d)定期召开网络质量分析会,遇有重大故障,应及时召开故障分析会。负责全公司运维人员的技术业务培训,提高运维人员的技术维护水平和工作能力。 第三章95013 业务故障分类 95013 业务系统和网络故障分为重大故障、严重故障和一般故障。 1.重大故障:全部业务中断 2.严重故障包括: —种以上业务全部中断》60分钟 一省以上业务全部中断》60分钟 用户注册、业务受理全部中断》4个小时 3.一般故障:除重大故障、严重故障以外的其它故障。 第四章故障处理的原则: 先抢通,后修复;先核心,后边缘;先本端,后对端;先网内,后网外,分故障 等级进行处理。 第五章故障处理时限要求。 1.重大故障,故障处理时限w 2小时

运维人员管理规范

附件一运维人员管理规范 1.管理目的 项目实施完成后,完善外包人员的规范化作业.保证系统正常生产. 2.运维人员要求 乙方在完成项目终验后,直接转到项目维护, 乙方指定的工程师由甲方直接管理.乙方运维人员必须遵守甲方的考勤制度、外形象制度,该岗位工作人员无论是本公司职员或外包商职员,一律以我公司员工对外。 2.1 运维人员资源要求. 乙方必须给运维人员配备电脑及上网环境及居住环境(要求到达现场,不超过5分钟路程). 必需配备可移动热线电话,24小时保持开机,处于能接通状态. 2.2 人员技术要求. 按附件五中人员的要求,该名运维人员必须参与过该项目的实施,有从业经验一年以上. 2.3 运维人员考勤要求 要求早8:30到现场,晚5:30离开.得到最终用户同意,可以享受国家法定假日. 2.4 运维人员的考核 每一个季度,甲方会针对运维人员的巡检情况,故障解决能力,项目的稳定性等综合情况打分,纳入到考核,按考核分值付款. 3.项目运维双方接口 甲方管理接口人: 许胜凯 (甲方一卡通小组组长), 电话: ,邮箱:

甲方客服专员 : 彭媛媛(服务电话0)邮箱: 乙方运维工程师:吕青青,电话: 邮箱: 乙方项目负责人:牟骏宇,电话:邮箱: 乙方投诉电话:职位:经理 (因关系到付款,要求经理以上) 4. 客户关系处理要求 1.直接客户关系维护 保持良好的工作形象和积极的工作态度,配合直接客户的业务推广,让直接客户零投诉。 2.终端客户关系维护 保持良好的工作形象和积极的工作态度,做好维护巡检及故障及时处理,让终端客户零投诉。 3.潜在客户关系维护 保持良好的工作形象和积极的工作态度,合理详细的解说一卡通相关业务,让潜在客户有良好的印象。 5.工作内容 主动巡检要求: 1. 乙方运维工程师每天20:00前提交项目日报到甲方管理接口人邮箱,抄送给甲方客户专员. 2. 乙方运维工程师每周五20:00前提交项目周报到甲方管理接口人邮箱,抄送给甲方客户专员. 3.乙方运维工程师每季度最后一天20:00前提交项目季度总结报告到甲方管理接口人邮箱,抄送给甲方客户专员. 4.主动巡检内容及表格,详见本规范附件。 故障处理: 维护工程师接到故障任务,要求在10分钟内响应,并处理故障(电话或现

相关主题