搜档网
当前位置:搜档网 › 网管告警标准化方法的研究

网管告警标准化方法的研究

网管告警标准化方法的研究
网管告警标准化方法的研究

上海贝尔4G常见告警解析及网管常用操作

4G重要告警解析 一、影响小区发射的告警 1. ReachabilityProblem(基站退服或脱管) ●Alarm Code:ReachabilityProblem ●告警影响:e Node B 设备监控失去 ●告警原因分析:导致该告警的原因主要体现在三个方面:电源、传输、主控 卡(C板)故障: 1)电源:交流停电等,此时应该有相关环境告警上传; 2)传输:传输断 3)主控卡故障:主控卡出现掉死、无法正常启动、不断重启等故障; ●告警解决方法:电源或传输问题,请相关人员解决;如果是主控卡故障,需 要维护人员上站解决;更换主控卡后,需要先问网管人员要一个Yang WO 文件重新下软件并导入WO文件激活。 2.CB INIT FAILURE (C板初始化失败) ●Alarm Code:IK4004001 ●告警影响:整站退服,设备可监控; ●告警原因分析:C板故障或者高温导致 ●告警解决方法:需上站下电重启设备,或热插拔C板,若故障依旧需要更换 C板,更换流程请参考ReachabilityProblem(基站退服或脱管) 3. NO CONTACT TO BOARD (B板退服) ●Alarm Code:IK4009041 ●告警影响:整站退服,小区不发射; ●告警原因分析:若基站无C板或者GPS告警的话,则是B板故障 ●告警解决方法:网管重启基站不管用的话,需要上站更换,更换B板会自 动下软件,基站侧不需要做任何操作,大概需要10分钟左右 4. LTECellAdminDown (小区退服) ●Alarm Code:LTECellAdminDown ●告警影响:相应小区退服; ●告警原因分析:一般都是由于基站硬件告警或者小区被lock所致 ●告警解决方法:首先排除小区或基站是否被locked,其次查看是否有导致 小区退服的硬件告警 5. NO CONTACT TO BOARD(RRH脱离) ●Alarm Code:IK4009138 ●告警影响:某个RRH对应的小区不发射 ●告警原因分析:造成此告警的原因可能是电源,光纤及RRH故障 ●告警解决方法:需下站查看电源及RRH和C板连接的光纤衰耗,如果两种 情况都正常的话,就要考虑RRH本身的问题了,最好的方法是塔上和别的正常小区做对调来排查

中国电信VoLTE网管系统技术规范

中国电信集团公司网运部

目录 1前言 (6) 2范围 (6) 3规范性引用文件 (6) 4术语定义 (7) 5总体技术要求 (7) 5.1总体架构 (7) 5.2与智能网管的关系 (7) 6生产管理 (8) 6.1视图管理 (8) 6.2视图管理范围 (9) 6.3视图管理基本功能要求 (9) 6.4配置管理 (10) 6.4.1 功能概述 (10) 6.4.2 配置数据的合法性检查 (10) 6.4.3 配置数据的查询 (10) 6.4.4 配置数据的同步 (11) 6.4.5 配置数据一致性校验 (11) 6.4.6 配置数据下载和激活 (11) 6.4.7 配置数据上载 (11) 6.4.8 配置数据的恢复 (11) 6.4.9 配置数据导出 (11) 6.4.10 网元软件管理 (12) 6.4.11 网元软件下载 (12) 6.4.12 软件及补丁的安装 (12) 6.4.13 查询网元软件版本 (12) 6.4.14 查询单板版本 (12) 6.4.15 查询版本同步状态 (12) 6.4.16 版本回退 (12) 6.4.17 数据配置方式 (13) 6.4.18 在拓扑视图中进行配置 (13) 6.4.19 通过命令行进行配置 (13) 6.4.20 通过配置文件进行配置 (13) 6.4.21 配置管理信息要求 (13) 6.5网络监控和告警管理 (14) 6.5.1 功能概述 (14) 6.5.2 功能要求 (14) 6.6故障处理 (19) 6.6.1 功能概述 (19) 6.6.2 功能要求 (19) 6.6.3 网元指令通道要求 (19) 6.6.4 任务调度服务 (19)

维护经验:网管安全告警处理案例

网元安全告警处理案例 近日,我传输中心技术人员在更换华为公司Optix155H型设备主控板时,遇到网元频繁上报SCB-ALM告警的问题。我们通过查找资料、咨询华为客服热线等方式,及时将该问题解决。现将本次处理过程总结如下。 一、现象描述 我公司传输本地网一网元F2口传输环境监控信息,该F2通道出现故障,需要更换主控板进行处理。我们将设备的主控板由SS42SCB更换为SS43SCB单板,更换完成后,发现该网元频繁上报SCB-ALM告警,闪报状态,但不影响业务。该网元单板配置如下:3-SP1D,9-X42,11-OI2D, 15-STG ,17-SCC,18-OHP2。 二、原因分析 SCB-ALM告警是网元安全告警,是由于网管登陆网元引起的。该网元不断闪报安全告警,表明一直有一网管试图登陆该网元,但不能成功登陆。这种情况,应该是网元用户设置问题或是网管侧数据设置引起的。 三、处理过程 1、通过NES网管查询网元用户,发现该网元用户只有一个:们首先排除传输侧问题:重新检查各处2M线的制作情况,没有发现问题。在远端进行PDH 设备支路环回,近端PDH侧挂PCM2M误码表进行测试,测试结果显示没有任何误码。传输侧问题基本可以排除。 排除路由器问题:公安边防接入系统原使用另一家电信运营商的传输路由,割接前一直没有丢包现象。通过测试路由器设备,没有发现问题。 故障定位在V.35介质转换器上。本次使用的V.35转换器是北京瑞斯康达公司的RC903-V35FE1型转换器。我们以前没有接触到该型号设备,通过查看设备说明书和咨询厂家,我们初步判断问题出在该转换器的设置开关上。 调整V.35设备的时钟方式,将近端和远端V.35转换器设备由出厂默认的主时钟方式(内时钟)改为从时钟方式(跟踪E1时钟),观察丢包现象,丢包现象依然存在。 调整TX、RX的CLK相位关系,将近端和远端V.35转换器设备由正向改为反向,丢包现象消失。 我们又尝试了其它几种TX、RX的CLK相位设置方式,我们发现近端和远端V.35转换器的TX、RX-CLK相位关系不是绝对的,有一端设为正

常见仪表常见故障及处理办法

仪表常见故障检查及分析处理 一、磁翻板液位计: 1、故障现象:a、中控远传液位和现场液位对不上或者进液排液时液位无变化;b、现场液位计和中控远传均没有问题的情况下,中控和现场液位对不上; 2、故障分析:a、在确定远传液位准确的情况下,一般怀疑为液位计液相堵塞造成磁浮子卡住,b、现场液位变送器不是线性; 3、处理办法:a、关闭气相和液相一次阀,打开排液阀把内部液体和气体全部排干净,然后再慢慢打开液相一次阀和气相一次阀,如果液位还是对不上,就进行多次重复的冲洗,直到液位恢复正常为止;b、对液位计变送器进行线性校验。 二、3051压力变送器:压力变送器的常见故障及排除 1)3051压力变送器输出信号不稳 出现这种情况应考虑A.压力源本身是一个不稳定的压力B.仪表或压力传感器抗干扰能力不强C.传感器接线不牢D.传感器本身振动很厉害E.传感器故障 2)加压变送器输出不变化,再加压变送器输出突然变化,泄压变送器零位回不去,检查传感器器密封圈,一般是因为密封圈规格原因(太软或太厚),传感器拧紧时,密封圈被压缩到传感器引压口里面堵塞传感器,加压时压力介质进不去,但是压力很大时突然冲开密封圈,压力传感器受到压力而变化,而压力再次降低时,密封圈又回位堵住引压口,残存的压力释放不出,因此传感器零位又下不来。排除此原

因方法是将传感器卸下看零位是否正常,如果正常更换密封圈再试。 3)3051压力变送器接电无输出 a)接错线(仪表和传感器都要检查) b)导线本身的断路或短路 c)电源无输出或电源不匹配 d)仪表损坏或仪表不匹配 e)传感器损坏 总体来说对3051压力变送器在使用过程中出现的一些故障分析和处理主要由以下几种方法。 a)替换法:准备一块正常使用的3051压力变送器直接替换怀疑有故障的这样可以简单快捷的判定是3051压力变送器本身的故障还是管路或其他设备的故障。 b)断路法:将怀疑有故障的部分与其它部分分开来,查看故障是否消失,如果消失,则确定故障所在,否则可进行下一步查找,如:智能差压变送器不能正常Hart远程通讯,可将电源从仪表本体上断开,用现场另加电源的方法为变送器通电进行通讯,以查看是否电缆是否叠加约2kHz的电磁信号而干扰通讯。 c)短路检测:在保证安全的情况下,将相关部分回路直接短接,如:差变送器输出值偏小,可将导压管断开,从一次取压阀外直接将差压信号直接引到差压变送器双侧,观察变送器输出,以判断导压管路的堵、漏的连通性 三、雷达液位计:

北京福富电信网管系统

项目技术方案 武汉开目佰钧成技术有限公司2009年5月15日

第1章项目概述 当前,数据通信网络正处于全面、高速的发展阶段,网络结构和应用需求日趋复杂。如果在设计与实施网络管理系统(以下简称网管系统)的过程中未做全面周到的考虑,必将制约网络的迅速发展。因此,网管系统的建设至关重要,电信网管系统就是其中的典型应用。

第2章指导思想 为了保证本项目的成功实施,我们在进行本电信网管系统的需求、设计、开发、部署和维护时遵循如下指导思想: 2.1目标明确,重点突出 按照电信网管系统的要求,我公司参照其他类似系统取其精华,去其糟粕,实现其核心功能,摒弃其中设计和实现方面不合理的部分,设计和开发出符合客户特点的、快速、稳定的网管系统,并为后续目标的逐步实现奠定良好基础。 边界不清晰、工作重点不突出容易导致项目失败,为确保项目的成功,我公司将遵循招标文件的要求,在开发过程中与各方通力配合,重点做好以下工作: (1)完整实现技术招标书所要求的功能性需求以及关联性的隐含需求; (2)解决海量数据和大并发访问导致的性能问题; (3)提供高安全性支持; (4)系统具有良好的可伸缩性和可扩展性,为以后的可持续发展奠定良好基础; (5)系统可提供不同方式的多种集成模式,实现与其他系统的集成;(6)系统交互性好,容易使用的用户体验; (7)尽量选择成熟的先进的技术,不增加项目的技术风险。 2.2海量数据,高并发支持 为了获得较好的性能和用户体验,根据我们的经验,排除

Internet网络速度的因素,用户登录系统的时间应不超过3秒钟,用户打开100KB以内页面的时间应不超过5秒钟,查询、提交表单的响应时间应不超过10秒(不包含批处理操作)。 系统的整体性能与很多因素有关,这些因素包括硬件、网络、数据库、操作系统、应用服务器、应用程序等。我们将针对可能影响系统性能的因素进行系统分析,找出可以提升系统运行效率的方法。在“性能设计”章节将重点介绍如何从操作系统、应用服务器、数据库、应用系统角度对系统进行设臵、调优。 2.3高安全性支持 对网络管理系统等相关数据内容是需要高度保密的数据,这些数据一旦泄露将会对企业造成难以预计的损失。因此,此网管系统无论是在硬件管理还是软件使用的过程中,都需要提供可靠的安全性保障。 “安全”是具有广泛内涵的概念,涉及指导思想、各层面的技术保障、人员管理等诸多方面,是一个“立体”的、“多维度”的概念。技术保障体系相关的安全技术非常多。 项目执行过程中我们将与硬件供应商、系统软件供应商等通力合作,力争从信息安全的各个层面为此系统建立全方位、多层面的“立体化的”安全保障体系。 2.4架构灵活性、容易扩展 无论从技术上还是业务上都必须有一定的前瞻性,随着应用水平的提高、规模的扩大和需求的增加,系统架构应不需做较大的改变甚至可以在不停机的情况下即可以快速适应。 2.5开放集成性好 因为本系统需要与企业内部CRM、ERP等系统进行集成,所以本

(完整版)中国铁塔动环常见告警处理指导手册

中国铁塔动环常见告警处理指导手册一、FSU离线告警 告警名称:FSU离线; 告警解释:FSU和铁塔集团平台连接通讯中断; 原因分析:1)信号差或不稳定;2)FSU设备掉电;3)无线模块硬件故障;4)FSU设备硬件故障;5)天线和无线模块连接中断,或天线丢失;6)VPN服务器连接不上;7)SIM卡被盗、欠费或故障。平台处理方法:查询历史告警记录,如频繁离线或长时间离线,需现场检查。 现场处理方法: 第一步检查供电: 1)在运维监控系统检查离线站点是否有停电告警,判断是否现场停电; 2)现场检查FSU指示灯不亮设备没有供电。 原因分析:FSU供电异常。 解决方案: 1)检查整个基站是否停电,如停电则通知相关人员取电; 2)检查FSU供电空开是否跳闸及通电线路是否正常。 第二步检查无线模块: 检查无线模块指示灯都不亮或都常亮。

原因分析:无线模块供电异常或无线模块故障。 解决方案: 1)无线模块供电故障,则检查给无线模块供电接线是否正常如正常,则用万用表测量给无线模块供电FSU输出端是否有12V,如没有则为FSU供电板问题,更换FSU供电板。 2)确认供电正常,则更换无线模块进行测试。 下站建议:下站时建议随身带上一套可以成功拨号的无线网卡和SIM 卡,下站的时候作对比验证,快速确认是SIM卡问题,还是无线模块问题。 第三步FSU检查 通过EISUConfig软件登陆FSU设备,点击设备诊断管理。 1)信号强度弱:通过设备软件登录设备,如信号强度小于15。

解决方案:更换运营商无线模块或将天线外延(室内站放到室外,室外柜放到底部隐蔽区域或有外层保护情况下放到机柜顶部) 2)铁塔VPN网络连接异常:铁塔VPN网络提示连接异常 3)铁塔网管未注册:铁塔网管提示连接异常(正常显示连接正常)解决方案: 确认总部平台正常,重启FSU(等待程序连接)。如重启后未恢复,联系厂家专业人员。 平台恢复确认:告警管理-活动告警监控-当前告警查询该站点,确认告警是否消除。 二、电源配套告警 2.1开关电源类告警: 2.1.1开关电源通信状态告警 告警名称:开关电源通信状态告警; 告警解释:开关电源和FSU之间的通讯中断; 原因分析:开关电源和FSU之间的通讯中断 平台处理方法:无 现场处理方法:检查开关电源屏幕是否显示正常,和FSU的监控线连接是否正常。

网管系统告警产生和处理机制

网管系统告警产生和处理机制 1.1.1告警来源和产生机制 1、SYSLOG日志(被动接收方式) 通过采集服务器的SYSLOG服务,接收网元发送上来的SYSLOG日志记录。告警采集程序通过rules将SYSLOG日志记录解析为告警记录。一条典型的华为端口DOWN告警解析过程: Jul 15 19:54:11 133.63.254.190 2008 yaan-DC-R-N40 IFNET/5/UPDOWN:Interface Ethernet1/0/5 Turns into DOWN state 针对上面的告警,通过rules,主要解析出如下内容 告警来源IP:133.63.254.190 告警类型:IFNET/5/UPDOWN 告警对象:Ethernet1/0/5 告警原始级别:5 告警描述:Interface Ethernet1/0/5 Turns into DOWN state 2、Snmp Trap告警(被动接收方式) 告警采集在162端口监听并接收网元发送过来的TRAP通知,通过加载相应MIB里的TRAP定义或者厂家提供的TRAP告警翻译规则,转换为相应的告警记录。举例说明: 10.102.16.2: TRAP[requestID=0, errorStatus=Success(0), errorIndex=0, VBS[1.3.6.1.2.1.1.3.0 = 229 days, 12:07:02.00; 1.3.6.1.6.3.1.1.4.1.0 = 1.3.6.1.4.1.390 2.1015.1010.1.10.1.17; 1.3.6.1. 2.1.2.2.1.1 = 808584704 ]] 根据中兴提供的TRAP告警定义: (1)1.3.6.1.4.1.3902.1015.1010.1.10.1.17代表zxAnEponOnuErroredSymbolPeriodEvent,即ONU错误符号间隔事件,级别是主要。 (2)808584704 代表索引信息,可进一步定位到具体的ONU设备,如F820(0/4/4/5)。 解析翻译后的告警如下: 告警来源IP:10.102.16.2 告警类型:zxAnEponOnuErroredSymbolPeriodEvent 告警对象:10.102.16.2 告警级别:4 告警描述:10.102.16.2 F820(0/4/4/5) : ONU错误符号间隔事件 3、网元状态Polling告警(主动检测方式) (1)告警产生 采用定期调度(根据设备的重要程度可设定不同的策略)对设备先进行SNMP连接测试,再进行ICMP PING测试:

告警查看

当前告警的日常操作 1 访问当前告警管理数据库 对于维护人员来说,通过告警来了解现场设备工作状态是一种必要手段。这样,首先就需要了解A1353RA 的当前告警管理工具-CAL。 1.1 启动当前告警管理工具-CAL 1.动CAL; 图1 启动CALL 2.可见当前告警数据库被打开;

图2 CALL 界面一 初始界面中,并不直接显示告警,而是显示告警子数据库(Sublist),以 及子数据库中各类告警的统计值; 当某个告警子数据库(Sublist)有新告警加入时,则显示出新告警标识。 1.2 访问告警子数据库 1.方法一:可双击需打开的sublist; 图3 选中SSuubblliisstt 2.方法二:选中sublist 后,在菜单上选Open 打开; 图4 打开SSuubblliisstt 3.可见所有sublist 中的告警。 图5 SSuubblliisstt 窗口 窗口上半部分为菜单及计数器;窗口下半部分为所有告警条目,可通过颜色来判断告警的严重性。 表1 告警分类

在Sublist 中,告警一般是按时间降序排列,最新发生的告警条目在最上方,使用者可定制告警条目的排列。 2.当前告警查询 当前告警会直接告诉我们现场设备所发生的问题即故障的对象,故首要任务是 了解如何查询告警。 2.1 打开告警信息 1.进入告警列表界面; 图6 告警列表 在界面上可得到部分有关告警的信息,但是要得到具体的信息,还需要进入告警信息窗口。2.打开告警信息窗口; 方法一:双击告警条目; 图7 告警条目 方法二:在选中告警条目的右键菜单中选中“More Info”。 图8 告警信息 进入信息窗口;

网络管理 告警系统

网络管理—警告系统的设计 1设计目标 1.数据采集:通过采集计算网络中的配置信息,告警信息,性能信息,反馈给告警中心。 2.数据分析:分析告警信息(原始告警信息,性能数据,配置信息),推理处理并存储记录告警,且实现告警的可确认消除(自动回复/手动恢复)。 3.数据应用:实时监控重要的告警信息,解决并消除告警信息。根据告警信息记录生成报表统计,向上层提供决策的数据依据。 2 概要设计 系统分三层:数据的采集数据处理数据应用 数据采集:从系统的网元上采集数据包括:性能数据信息,网元告警信息,拓扑结构的配置信息,向数据处理层的制定临时数据库中传送。 数据处理:从指定的数据库中获得原始数据信息,判断处理。根据估值(及性能阀值)判断生成警告信息,存储分析并上报告警信息。实现告警的匹配确认清除,重复告警的归并处理。 数据应用:及时监控重要的告警信息,并处理此告警,反馈告警的确认信息。根据不同的用户需求展现告警统计信息报表,为决策提供数据支持。

3数据采集层 3.1 内容 3.1.1配置数据采集的内容 及获得该网络中的网元设备,基本信息,与实体形成对应的映射。用于网络的拓扑信息管理。 网管系统管理采集以下配置数据: 3.1.2告警数据采集的内容 告警源 需要采集的告警报告分为: 网元告警 ●路由器: ●交换机: ●配线板: ●服务器:cpu , 内存,硬盘,电源,风扇(散热),网卡,光驱,端口,运行的软件服务 1.环境告警: 暂保留。 2.通信连接告警(拓扑管理):当某一网元设备持续一定时间不响应网管系统时,网管系统应能自动生成该网元设备的通信连接警。 3.性能告警:当性能指标超出预先设定的范围时,系统触发的告警称为性能告警。 4.设备告警:来自设备红端的告警信息。 原始告警数据内容 原始告警数据是从告警源采集到的未经任何处理的原始告警信息,格式和内容与网元类型相关,原始告警信息将在告警管理应用层进行处理,采集层采集到的告警原始数据至少应包括以下内容:

中国铁塔动环常见告警处理指导手册

中国铁塔动环常见告警处理指导手册 一、FSU离线告警 告警名称:FSU?线; 告警解释:FSUffi铁塔集团平台连接通讯中断; 原因分析:1)信号差或不稳定;2)FSUI^备掉电;3)无线模块硬件故障;4) FSUI^备硬件故障;5)天线和无线模块连接中断,或天线丢失;6) VPM艮务器连接不上;7) SIM卡被盗、欠费或故障。 平台处理方法:查询历史告警记录,如频繁离线或长时间离线,需现场检查。 现场处理方法: 第一步检查供电: 1)在运维监控系统检查离线站点是否有停电告警,判断是否现场停 电; 2)现场检查FSU指示灯不亮设备没有供电。 原因分析:FSUtt电异常。 解决方案: 1)检查整个基站是否停电,如停电则通知相关人员取电; 2)检查FSU供电空开是否跳闸及通电线路是否正常。 第二步检查无线模块: 检查无线模块指示灯都不亮或都常亮。

原因分析:无线模块供电异常或无线模块故障。 解决方案: 1)无线模块供电故障,则检查给无线模块供电接线是否正常如正常, 则用万用表测量给无线模块供电FSLtt出端是否有12V,如没有则为FS姬电板问题,更换FSUf;电板。 2)确认供电正常,则更换无线模块进行测试。 下站建议:下站时建议随身带上一套可以成功拨号的无线网卡和SIM 卡,下站的时候作对比验证,快速确认是SIM卡问题,还是无线模块问题。 第三步FSU^查 解决方案:更换运营商无线模块或将天线外延(室内站放到室外,室外柜放到底部隐蔽区域或有外层保护情况下放到机柜顶部) 2)铁塔VPN网络连接异常:铁塔VPMW络提示连接异常 3)铁塔网管未注册:铁塔网管提示连接异常(正常显示连接正常) 解决方案: 确认总部平台正常,重启FSU(等待程序连接)。如重启后未恢复,联系厂家专业人员。 平台恢复确认:告警管理-活动告警监控-当前告警查询该站点,确认告警是否消除。

铁塔监控告警处理方法

山西铁塔动环告警现场处理指导手册1.0 FSU离线 告警名称:FSU离线; 告警解释:FSU和铁塔集团平台连接通讯中断; 原因分析:1、信号差或不稳定。2、FSU设备掉电。3、无线模块硬件故障。4、FSU设备硬件故障。5、天线和无线模块连接中断,或天线丢失。6、VPN服务器连接不上。7、SIM卡被盗、欠费或故障。 平台处理方法:查询历史告警记录,如离线有反复,可以在站点通的时候,远程修改VPN服务器,观察效果。如修改后仍有反复,需现场检查天线情况。如一直离线,也需现场检查。 现场处理方法:1、检查天线是否在机柜外面,如再柜子里面,需拿出来放到机柜外。如天线被剪断,需重新连接,或补装。2、检查FSU和无线模块是否上电,如无电需上电。如已上电,但运行不正常,可重启设备观察是否恢复。如仍不能恢复,可能是硬件故障,可以先替换无线模块,观察恢复情况。如替换无线模块后仍不行,需替换FSU硬件。 平台回复确认:告警管理-活动告警监控-当前告警查询该站点,确认告警是否消除。 2温度超高、过高;温度过低 告警名称:温度超高、过高;温度过低; 告警解释:温度探头探测到温度超过设定阈值40℃、38℃;温度探头探测到温度低于设定阈值15℃;

原因分析:机房环境温度高平台处理方法:查询历史告警记录,如温度告警有消除,且跟天气一致,则属于正常告警。如告警一直不消除,需现场查看确定原因。现场处理方法:日常测试:在机房巡检时,可用手持红外测温仪测量温度传感器位置的温度,与动环网管对照数值,确认动环温度的采集精度。故障现象:网管上查看温湿度数据为负值或传感器故障;故障分析:可能原因有温湿度故障、采集板坏或网管配置有误,如果此站点所有的本板遥测量数据都为负,则可能是EISU的主板故障,需更换EISUM板,如果只是此温湿度故障,则可通过更换此温湿度对比测试;故障处理:更换此温湿度时,先用小平口螺丝刀抵住温湿度传感器上端的卡口往下压,然后打开外壳,再用十字螺丝刀将四颗螺钉拧下来再更换新的温湿度传感器,注意接线要按原来的色序接。 平台回复确认:告警管理-活动告警监控-当前告警查询该站点,确认告警是否消除。 3湿度过高、湿度过低 告警名称:湿度过高、湿度过低; 告警解释:湿度探头探测到湿度超过设定阈值90%RH(低于设定阈值20%RH);原因分析:机房环境湿度高(湿度低,或湿度传感器故障) 平台处理方法:查询历史告警记录,如温度告警有消除,且跟天气一致,则属于正常告警。如告警一直不消除,需现场查看确定原因。 现场处理方法:日常测试:在机房巡检时,可用手持红外测温仪测量温度传感器位置的温度,与动环网管对照数值,确认动环温度的采集精度。故障现象:网管上查看温湿度数据为负值或传感器故障;故障分析:可能原因有温湿度故障、采集板坏或网管配置有误,如果此站点所有的本板遥测量数据都为负,则可能是

常见告警故障处理及分析

···常见告警故障处理及分析 MOTOROLA基站的告警按故障设备可分为三类:设备告警、内部告警、外部告警。 一、设备常见告警 设备告警是硬件告警最常见也是最重要的告警,告警设备一般为基站的主要器件,它的告警类型就是它的设备类型。 1. DRI 29:[Front End Processor Failure - Watchdog Timer Expired] 前端处理器故障 DRI硬件故障,出现此告警时DRI可能会反复自启,可能会退服,应先reset or ins DRI应进行INS或RESET处理,若告警未消失,更换TCU。 2. DRI 40-47 :[Channel Coder Timeslot 0(-7) Failure] 0-7时隙信道编码器失败。 M-CELL基站经常出现此类告警,应进行INS或RESET处理,不行再更换TCU900。此告警在GSR4时出现,升级到GSR5可能会消失。 3. DRI 51 :[Baseband Hopping TDM Link Error]基带跳频TDM链路错误。 此告警有几种可能性:TDM-Highway BUS或KSW可能有问题。 DRIM的FEP,CCDSP可能有问题。 此告警须在现场具体测试分析。测试后判定故障点。 此告警在GSR4时出现,升级到GSR5可能会消失 TDM——Time Division Multiplexing时分复用:该总线用于把来自BTS的呼叫与信令数据传送到MSC,反之亦然。可分为两个独立的部分:交换机公共通路&出局公共通路。 交换机公共通路:处理路由到交换机的数据,数据来自外部信源 (通过E1/T1接口)或由GPROC内部产生。 出局公共通路:这是一个被交换的数据,现在被路由出BSC/RXCDR (通过E1/T1接口)或通向内部GPROC。 4. DRI 81:[Transmitter Synthesizer Failure]收发单元故障 此告警为收发单元TCU故障,故障原因有可能为: -接收Calibration频点丢失 -信道盘的CEB故障 -射频电缆连接失败 处理方法:远程ins或reset TCU,告警消失并监测;若告警未消失,更换TCU 5. DRI 86 :[Transmitter Failure]输出功率失败,引起DRI退出服务。状态:

华为设备网管中告警原因判断方法

华为设备网管中告警原因判断方法 一、LAPD_OML链路断链告警。出现此告警时总是伴随着基站掉站告警,因而尽量准确 的判断此告警非常重要。主要原因有以下几点: 1、传输中断,故障排除步骤: ①、在BSC侧插拔E1接头,观察接口是否正常。 ②、检查DDF架,观察连接是否正常 ③、分段分别向基站方向和BSC方向进行自环,查找问题 ④、结合C网判断传输情况 2、基站停电,故障排除步骤: ①、察看该基站历史告警有无电源类的告警。 ②、如果有电源监控设备,检查基站电源有没有异常 ③、结合C网判断电源情况 3、BSC数据配置出现错误,故障排除步骤: ①、检查BSC数据是否有改动:是否在BSC操作几分钟之后产生了LAPD_OML链 路断链。 ②、检查BSC中与本基站OML链路配置相关的数据,看是否完整、有冲突,重 点检查LAPD半固定连接表、LAPD信令连接表、中继电路表等。 ③、如果有条件,将该基站下挂在另外一个正常运行的BIE端口上,并四级复 位站点,判断是否BSC数据问题。(此操作风险较大,一般不要做) 4、TMU单板有无异常: ①、网管观察有无TMU历史告警,若有应进行原因分析。 ②、通知相应基站维护人员 二、基站初始化失败(包括个别小区、单板初始化失败 1、基站原因 ①、远端四级复位基站; ②、检查BSC数据是否有改动 ③、对于个别小区初始化失败,请重点检查与小区硬件配置相关的数据,是否 正确,与小区属性、载频属性和天馈相关的数据,是否有越界和非法数据。 ④、对于个别TRX初始化失败,请重点检查与本TRX相关的链路数据配置,包 括信令信道连接表、LAPD信令连接表、载频配置表、LAPD半固定连接表、中继电路表等。 2、传输原因,观察(测量)传输误码情况

OKUMA常见报警信息及解决办法

O K U M A常见报警信息及解决 办法 -标准化文件发布号:(9456-EUATWK-MWUB-WUNN-INNUL-DDQTY-KII

OKUMA常见报警及解决办法 1、Y、Z轴润滑报警 报警代码为2705或2706出现该报警基本上是压力继电器信号未来,若出现润滑报警...ON则是为Y、Z轴没有润滑,从下顺时针调大压力继电器润滑量即可,反之则相反。可从主界面按选项Check第二十七页ILBYZ观察,系统设置是10分钟润滑一次,ILBYZ亮了会熄灭重复这个则为正常。若调、换了继电器还是报警则1、管子内可能有空气,将润滑管松一点启动机床留出润滑油扯紧即可。2、机床右侧导轨油润滑泵有杂质,用风枪进行清洁。 2、MCS总线电压异常 报警代码为2156,出现该报警后可等待十几分钟后再按复位可消除,若消除不了只有关机断电将驱动器取下寄回宜宾维修。拆驱动器时需注意1、取驱动器之前记好显示屏的报警以及驱动器显示的报警2、取驱动器记下驱动器薄码的编号以及维修装上去后与其他机床对比3、断电后需要等驱动器电源的红色指示灯熄灭后再拆4、每个驱动器的线都有自己号码,U代表的是顺序第几个驱动器。 3、2168或2169 MCS光栅尺异常 出现该报警时注意是哪根轴报警。将报警的那根轴的盖板打开把读数头的插头重新接一下看是否报警,如果还不能解决就将整个读数头取下用工业酒精擦拭清洁重装,如果还不能解决报警只有改为半闭环。 4、2173MCS电机过热 出现该报警检查电机的风扇是否运行,检查出是电机扇热故障还是驱动器故障。 5、机床无法调出程序 在调程序显示报警时,1、检查进电气柜的网线是否松脱2、检查进电脑主机网线是否松脱3、清理TC盘缓存。 6、1071存储版电池紧急更换 换电池时需将机床关机,在PLC模块MODE旋钮从0拨到1,开机启动选择选择选项。。。。。然后关机将电池取下并装上,启动选择选项。。。。。关机,将MODE选项拨到0重启即可。 7、2462主轴分度异常 出现该报警时或者机床主轴不能旋转时,将第一步改为1,观察U系列15-2第。。步,若为0则是头已拉紧,若为7则是头未拉紧。需要手动进行分度,将参数7改为6,第13步第1项0改为61,此时头会向下,切换到手轮调到4轴对主轴头进行旋转在到达正中间0点时按拉刀键(最下面一个键)头即会拉紧,观察15-2的参数若为还是为7则需要重复以上步骤,调节4轴位置再拉紧直到参数变为0

网管系统要求

综合信道接入设备 5.1 性能指标要求 5.1.1符合国家军用标准要求 军用通信设备通用规范GJB 0367A-2001 标准数据通信基本型传输控制规程 GJB88-1986 光纤通信设备通用规范 GJB3148-1998 区域通信系统与现役通信装备互连互通要求 GJB5295-2004 军事通信网网络管理系统通用技术要求 GJB4480-2002 5.1.2 主要性能指标要求 物理接口 干线接口 E1/G703 成帧模式 STM-1 光口 用户接口 E1/G703 成帧模式 V.35/RS-422 V.24/RS-232 以太网/RJ45 设备可靠性要求 支持主控板和电源板的热备份; 平均无故障时间(MTBF)大于10000小时; 平均故障恢复时间(MTTR)小于0.5小时 扩展能力 具备支持语音、数据、视频等综合业务持续扩展能力。

5.2 接口配置要求 接入设备接口配置表 5.3 网管系统要求 网管系统应当符合ITU-T电信管理网络(TMN)关于SNMP、CORBA管理系统的建议,具备网元层和网络层管理功能。 5.3.1网元层管理功能 5.3.1.1配置管理 对设备及业务的相关属性进行配置。系统支持的配置管理工具包括: 基于GUI的配置管理; 基于TELNET采用人机命令方式的配置管理; 5.3.1.2设备状态监视 监视各网元设备(包括机架、单板、端口等)的运行状态,直观、详细定位故障源; 支持通过面板图实现各种配置功能 5.3.1.3性能管理 网元性能数据的采集 网元性能告警的监视 网元性能数据的图形化显示 网元性能数据的保存; 5.3.1.4故障管理 网元告警显示

常见报警及处理办法

附录三常见报警及处理办法 1、Light barrier 机械手到位报警,当机械手在取放刀区域上位时,系统将忽略这一信号,以使取放刀正常。当机械手不在取放刀区域时,只要机械手离开下限位,就产生Light barrier报警,并停止机器。 处理办法:检查机械手是否在上限位,在上限位放下机械手即可。若仍然报警,查看机械手下限位传感器灯是否亮,检查传感器螺丝是否松动,传感器是否故障,检查线路是否断开。 2、Position stop 人身安全保护对射灯,当有人或物体进入机器内并当住对射光线时,机器停止,清除障碍物或人离开后,机器才能正常工作,有两种选择:一是清除障碍物或人离开后机器立即接着工作,二是清除障碍物或人离开后按空格键才能继续工作。 3、Table stop 当主轴有转动和PIN夹打开时机器就产生Table Stop报警,并停止机器。检查PIN夹是否打开,关闭PIN夹并按空格键即可。 4、EMERGENCY STOP 机器的紧急停止信号,当急停按钮按下时即产生此报警信号,能有效中断X、Y、Z轴的伺服电机供给,所有的轴开始变得不能动作,主轴也不能运转。在检查作业时进入机器前,确认本功能有效才可进入机器作业。X、Y、Z轴驱动器及变频器亦能产生EMG此报警信号,所以在释放急停按钮,按下电脑键盘ESC后仍产生EMG报警,则检查是否有其它故障导致驱动器报警。 5、SPINPLE AIR 总气阀报警,当主气压不足时,机器停止,主轴停止,主气压满足要求,按ESC键清除报警信号,机器才能工作。 6、QIC limit alarm 压脚切换报警,指定的压脚切换到系统指定位置(大孔或者小孔),如果切换不到位即产生报警。或是如果压脚在钻板过程中离开指定位置,系统亦会报警,并停止机器。 找到故障轴后排除压脚切换故障时,检查压脚切换单元电磁阀是否动作,压脚切换装置是否有异物卡住,是否有外力撞击而导致装置无法定位。检查切换汽缸位置传感器是否有亮,传感器是否故障,传感器固定螺丝是否有松动,传感器电源线是否断路。 7、SPIN THERMAL 主轴过载报警,当任一主轴电流过大时,电机保护继电器将脱扣,这时将产生过载报警。检查主轴是否异常,排除异常之后,打开机器后背门,按下电机保护继电器黑色RESET按钮可使跳脱的开关复位。 8、Cooling Unit 冷却机异常,检查冷水机是否打开,冷水机故障依照冷水机手册进行排除。 9、Circumstance temperature 环境温度报警,当机器工作的环境温度超过28℃时即产生环境温度报警,请检测环境温度是否已超过28℃。 10、COLLET_AIR 主轴夹头报警,在主轴有转动时,若主轴夹头总气压大于0.3kg时产生此报警。检查夹头张开总气阀是否关闭或者检查线路。 11、Machine stop 当电源异常、主轴、电机、驱动器发生故障时均产生此报警,如温度过高等,检查电源线路,各驱动器、主轴、电机温度是否异常,温度线是否断开。平台或者横梁使用直线电机时增加第二级位置保护,一旦电机超过限位触发,将中断整机供电,显示此报警。 12、NO CONTACT T 接触钻断刀报警,报警后机器会自动量刀,若断刀则更换刀具,若量刀判断刀未断则为断刀误报警,检查压脚是否接地,钻板时压脚是否与板接触良好,仍有此现象发生则更换断刀检测板。 13、GRIPPER NOT UP

贝尔PON告警处理方法

贝尔PON告警处理方法 针对现场告警拦截方法有如下三种: 一:从NE屏蔽设备告警, AMS收不到告警信息亦不上传。 这个方法分为在NE上操作和AMS上操作 ①NE操作: 登陆NE的TL1模式,下发关闭设备告警信息命令: SET-ATTR-ONT::ONT:::NR,DG; 关闭断电告警上报 SET-ATTR-ONT::ONT:::NR,INACT;关闭未激活ONU告警上报等 检查命令: RTRV-ATTR-ONT::ONT; 查询ONT告警是否被屏蔽,当检查结果不是NR时,表示未对该告警屏蔽操作,若为NR,则告警已被屏蔽

②AMS操作即在AMS客户端界面,对某个NE的某一告警不报告。 如上图界面,在“已报告”为“是”时,说明该未对INACT告警做屏蔽,当显示为“否”时,说明已经将INACT告警屏蔽,不再上报,AMS无法收到该设备下ONU的INACT告警。 二:在不屏蔽告警情况下,对考核的告警影响等级降级。 对有些网元上报的告警,需要屏蔽的话,可以通过修改告警级别并调整 AMS从NE收集告警的级别门槛方法来屏蔽告警。 NE告警级别修改: AMS转至要修改的NE上,Infrastructure →Alarms → Alarm Severity Assignment页面下,找到需要修改级别的对应告警,将严重性 改成需要的告警级别,比如最低等级“不确定”,然后点Apply 图标保存修改。同时调整AMS收集NE告警的级别门限。

修改AMS本身的告警,可以在AMS界面“管理 “→ EMS Administration →”配置“→”告警 “→ EMS Alarm Severity Assignment处操作: 调整AMS收集NE告警的级别门限步骤: 在“管理“→ EMS Administration →”配置“→”告警 “→ Alarm Settings页面的 EMS严重性筛选处修改告警收集的门槛,如改成

电信IDC业务网管系统规范标准

电信集团IDC业务网管系统规

目录 1前言 (1) 2适用围 (1) 3名词与术语 (1) 4参考资料 (2) 5总体要求 (2) 5.1整体架构 (2) 5.2与外部系统的关系 (3) 5.2.1与省IP 城域网网管系统的关系 (4) 5.2.2与省级SOC 系统的关系 (5) 5.2.3与省级综合故障管控系统的关系 (5) 5.2.4与集团IDC 资源管理系统的关系 (5) 5.3建设目标 (6) 5.3.1远期目标 (6) 5.3.2近期目标 (6) 5.4建设原则 (7) 5.4.1省级IDC 业务网管系统的建设原则 (7) 5.4.1.1客户为导向 (7) 5.4.1.2充分利旧 (7) 5.4.1.3分省接入 (7) 5.4.2本地IDC 机房安防系统、动环监控系统建设原则 (8) 6IDC 业务网管系统功能要求 (8) 6.1运营支撑管理 (8) 6.1.1作业计划管理 (8) 6.1.2自动巡检 (9) 6.1.3自动故障告警 (9) 6.2设备故障管理要求 (9) 6.2.1端口异常监控 (10) 6.2.2故障信息集成 (10) 6.2.3故障上报 (10) 6.2.4异常及告警的展现 (10) 6.2.5异常及告警的处理 (11) 6.3设备信息管理要求 (11) 6.3.1网络设备管理 (11) 6.3.2主机管理 (12) 6.3.3地址管理 (12) 6.3.4电路管理 (12) 6.3.5电路群管理 (13) 6.3.6VLAN 管理 (13)

6.3.7AS 管理 (13) 6.3.8配置文件管理 (13) 6.3.9规性检查 (14) 6.3.10设备OS 版本管理 (14) 6.3.11设备历史档案管理 (14) 6.4性能管理要求 (14) 6.4.1性能门限管理 (14) 6.4.2实时性能处理 (14) 6.4.3历史性能处理 (14) 6.4.4性能监测 (15) 6.4.4.1主机性能监测 (15) 6.4.4.2网络性能监控 (15) 6.4.4.3应用性能监测 (16) 6.4.4.4性能检测与分析 (17) 6.5网络拓扑管理要求 (17) 6.5.1拓扑发现 (17) 6.5.2拓扑展现 (17) 6.5.3拓扑定制 (17) 6.5.4拓扑监视 (18) 6.6流量流向管理要求 (18) 6.6.1流量流向管理 (18) 6.6.2流量流向分析 (19) 6.7业务/产品质量管理要求 (21) 6.8用户集中权限认证管理 (21) 6.9客户管理系统要求 (22) 6.9.1大客户管理 (22) 6.9.2前端服务管理 (22) 6.9.3SLA 管理 (22) 7演示系统要求 (22) 7.1报表管理系统要求 (24) 7.2系统管理要求 (25) 7.2.1权限管理 (25) 7.2.1.1角色管理 (25) 7.2.1.2用户管理 (25) 7.2.2系统数据的备份和恢复 (25) 7.3日志管理要求 (25) 8IDC 业务网管系统外部接口 (25) 9IDC 业务网管系统性能要求 (28) 10本地IDC 机房安防系统要求 (29) 10.1本地视频安防监控系统要求 (29) 10.2入侵报警系统要求 (30)

网络管理告警系统

网络管理告警系统 文稿归稿存档编号:[KKUY-KKIO69-OTM243-OLUI129-G00I-FDQS58-

网络管理—警告系统的设计 1设计目标 1.数据采集:通过采集计算网络中的配置信息,告警信息,性能信息,反馈给告警中心。 2.数据分析:分析告警信息(原始告警信息,性能数据,配置信息),推理处理并存储记录告警,且实现告警的可确认消除(自动回复/手动恢复)。 3.数据应用:实时监控重要的告警信息,解决并消除告警信息。根据告警信息记录生成报表统计,向上层提供决策的数据依据。 2 概要设计 系统分三层:数据的采集数据处理数据应用 数据采集:从系统的网元上采集数据包括:性能数据信息,网元告警信息,拓扑结构的配置信息,向数据处理层的制定临时数据库中传送。 数据处理:从指定的数据库中获得原始数据信息,判断处理。根据估值(及性能阀值)判断生成警告信息,存储分析并上报告警信息。实现告警的匹配确认清除,重复告警的归并处理。 数据应用:及时监控重要的告警信息,并处理此告警,反馈告警的确认信息。根据不同的用户需求展现告警统计信息报表,为决策提供数据支持。 3数据采集层 3.1 内容 3.1.1配置数据采集的内容 及获得该网络中的网元设备,基本信息,与实体形成对应的映射。用于网络的拓扑信息管理。

网管系统管理采集以下配置数据: 3.1.2告警数据采集的内容 告警源 需要采集的告警报告分为: 网元告警 路由器: 交换机: 配线板: 服务器:cpu , 内存,硬盘,电源,风扇(散热),网卡,光驱,端口,运行的软件服务 1.环境告警: 暂保留。 2.通信连接告警(拓扑管理):当某一网元设备持续一定时间不响应网管系统时,网管系统应能自动生成该网元设备的通信连接警。 3.性能告警:当性能指标超出预先设定的范围时,系统触发的告警称为性能告警。 4.设备告警:来自设备红端的告警信息。 原始告警数据内容 原始告警数据是从告警源采集到的未经任何处理的原始告警信息,格式和内容与网元类型相关,原始告警信息将在告警管理应用层进行处理,采集层采集到的告警原始数据至少应包括以下内容: 中文名称名称说明类型 告警的序列号Alarm_i d 告警的序列号字符串 网元的识别 名 Dn网元的识别名字符串告警发生时Occur_t告警发生时间时间

相关主题