搜档网
当前位置:搜档网 › 最全的网络故障案例分析及解决方案

最全的网络故障案例分析及解决方案

最全的网络故障案例分析及解决方案
最全的网络故障案例分析及解决方案

第一部:网络经脉篇2

[故事之一]三类线仿冒5类线,加上网卡出错,升级后比升级前速度反而慢2

[故事之二]UPS电源滤波质量下降,接地通路故障,谐波大量涌入系统,导致网络变慢、数据出错4

[故事之三]光纤链路造侵蚀损坏6

[故事之四]水晶头损坏引起大型网络故障7

[故事之五] 雏菊链效应引起得网络不能进行数据交换9

[故事之六]网线制作不标准,引起干扰,发生错误11

[故事之七]插头故障13

[故事之八]5类线Cat5勉强运行千兆以太网15

[故事之九]电缆超长,LAN可用,WAN不可用17

[故事之十]线缆连接错误,误用3类插头,致使网络升级到100BaseTX网络后无法上网18 [故事之十一]网线共用,升级100Mbps后干扰服务器21

[故事之十二]电梯动力线干扰,占用带宽,整个楼层速度降低24

[故事之十三]“水漫金山”,始发现用错光纤接头类型,网络不能联通27

[故事之十四]千兆网升级工程,主服务器不可用,自制跳线RL参数不合格29

[故事之十五]用错链路器件,超五类线系统工程验收,合格率仅76%32

[故事之十六]六类线作跳线,打线错误造成100M链路高额碰撞,速度缓慢,验收余量达不到合同规定的40%;34

[故事之十七]六类线工艺要求高,一次验收合格率仅80%36

第二部:网络脏腑篇39

[故事之一] 服务器网卡损坏引起广播风暴39

[故事之二]交换机软故障:电路板接触不良41

[故事之三]防火墙设置错误,合法用户进入受限44

[故事之四]路由器工作不稳定,自生垃圾太多,通道受阻47

[故事之五]PC机开关电源故障,导致网卡工作不正常,干扰系统运行49

[故事之六]私自运行Proxy发生冲突,服务器响应速度“变慢”,网虫太“勤快” 52

[故事之七]供电质量差,路由器工作不稳定,造成路由漂移和备份路由器拥塞54

[故事之八]中心DNS服务器主板“失常”,占用带宽资源并攻击其它子网的服务器57

[故事之九]网卡故障,用户变“狂人”,网络运行速度变慢60

[故事之十]PC机网卡故障,攻击服务器,速度下降62

[故事之十一]多协议使用,设置不良,服务器超流量工作65

[故事之十二]交换机设置不良,加之雏菊链效应和接头问题,100M升级失败67

[故事之十三]交换机端口低效,不能全部识别数据包,访问速度慢70

[故事之十四]服务器、交换机、工作站工作状态不匹配,访问速度慢72

第三部:网络免疫篇75

[故事之一]网络黑客程序激活,内部服务器攻击路由器,封闭网络75

[故事之二]局域网最常见十大错误及解决(转载)78

[故事之三] 浅谈局域网故障排除81

网络医院的故事

时间:2003/04/24 10:03am来源:sliuy0 整理人:蓝天(QQ:12015152)

[引言]网络正以空前的速度走进我们每个人的生活。网络的规模越来越大,结构越来越复杂,新的设备越来越多。一个正常工作的网络给人们带来方便和快捷是不言而喻的,但一个带病

工作的网络也常常给人带来无穷的烦恼甚至是巨大的损失。网络世界中最忙乱、心里最感底气不足的人恐怕要数网络管理人员和运行维护人员了。他们时时刻刻都在为他们的网络担心,病毒、黑客、速度变慢、网络崩溃....

[小康档案]:三年前负责管理Coneill公司,一家快速成长的公司的网络,曾自认为是NT和Novell、Unix等平台以及Oracle方面的专家,擅长协议分析和网管软件的使用,每天忙于安装设置不断加入网络的设备和系统,应付不断增加的各种意外事件、报警和陷井,处理网络设备经常性的增加、删除、更改和系统设置、连接等方面的故障和问题。至于如何提高网络的运行效率、如何合理调整网络流量并配置网络设备、如何防止网络问题的发生、如何采用宽带网络设备组网及应用等则基本上无暇顾及。一年前,小康从网络健康学院毕业后到网络医院就职,负责网络的体检(测试)和故障诊断,专门为哪些网络发生严重问题的“病人”提供帮助。现在他已经是一位经验丰富的网络健康维护的医生,巡诊故事多多。

第一部:网络经脉篇

[故事之一]三类线仿冒5类线,加上网卡出错,升级后比升级前速度反而慢

[症状]今天是我第一次巡诊,病人抱怨他的大多数站点上网连接速度比系统升级前还慢,有的站点时断时续,有的则根本不能上网。原来用的是10M以太网,工作非常稳定,性能优良。升级后全部更换为100M系统,出现上述症状。用户总数未有增加,也没有启用大型软件或多媒体应用软件。重装系统软件、应用软件,重新设置服务器和网站,查杀病毒,Reset 所有联网设备均不奏效。其中,有两台机器换到另一地点后能基本正常工作。用笔记本连接到这两个不正常链路的集线器端口上网,也能正常工作。更换这两根网线后现象依旧。将机器还原到原位置,更换网卡(原卡商标为3COM卡)后恢复正常,不知何故。由于以太网大多数用户不能工作,只好暂时退回到10M以太网系统。

[诊断过程]从10M系统的网管上观察,网络的平均流量为3%,低于40%,由于未运行大型软件和多媒体软件,应该不会感到任何速度上的“折扣”。将FLUKE的F683网络测试仪接入Hub端口,测试网络流量为35%。碰撞率为23%,远远高于5%的健康标准。报告的错误类型有:延迟碰撞、FCS帧错误、少量本地错误。基本可以断定是布线系统的严重问题。遂对线缆进行测试,结果显示除了测试点的两根电缆线外,其余所有布线链路的衰减和近端串扰均不合格,用3类标准测试这些电缆则显示全部合格。查看线缆外包装上印有Lucent Cat5的字样,可以断定是仿冒产品。测试

两台工作站的链路长度分别为78米和86米,测试其网卡端口,显示网卡发射能力(信号幅度)不足,并且仪器上没有内置的3COM厂商标记显示。

[诊断点评]用3类线外覆5类线产品标记在假冒伪劣产品中为数不少。用户在10M以太网环境中不会出现应用上的问题,一旦升级到100M环境在只有少数短链路能勉强使用。对于两台更换地点后能正常工作的网站,查明链路长度只有3米,且为标准的5类线(平时此站点用于临时测试)。原地点测试长度为45米和37米,由于网卡发射能力弱,信号在100M 系统衰减大,造成上网困难。改在3米链路连接时,衰减的影响小,故可以正常上网。网卡测试显示为仿冒卡。

[后记]一个月后,“病人”打电话告述我,重新布线后网络工作完全正常,即使跑一些多媒体软件也丝毫没有停顿的感觉。不好的消息是,原来的系统集成商已不知去向,无法索赔了。

[故事之二]UPS电源滤波质量下降,接地通路故障,谐波大量涌入系统,导致网络变慢、数据出错

[症状]今天的病人是一家著名的证券公司。上午9:45,用户来电请求紧急救援,说大户室中的一群声称遭受巨额无端损失的愤怒的股民们正聚集在营业部计算中心的机房门前,质问为

什么实时交易的动态信息显示屏幕出现大片空白,数据刷新和交易的速度都极慢,且经常中断,根本无法进行交易。扬言如果不立即恢复交易,将砸掉证券交易所的计算机。交易大厅的散户门也开始向机房云集,如果不及时处理,情绪激动的股民们很可能真的会将营业部计算中心的网络设备砸个希巴烂。放下电话直立即直奔该营业部,途中继续用移动电话了解得知,该网络为10M以太网,用户数为230个。从卫星接收广播的行情数据,并回传交易信息。由于从卫星接收机监测口观察接收数据完全正常,故网管人员初步判定是网络系统的问题。两个月前就开始有传输数据错误的现象出现,有时数据更新出现空白,数据更新速度偶尔变慢,有时出现断续。虽用网管和协议分析仪检查过,但因这种“症状”并不连续出现,且对网络的速度和股民的交易基本没有影响,故一直心存侥幸,没有彻底查找真正的故障根源。前天参加“第二轮证券系统Y2K统一认证测试”,顺利通过。利用剩余时间对硬件设备进行了检测和维护,之后进行联网检查,网络表现正常。不料今天开市就出现严重问题。

[诊断过程]用F683网络测试仪监测网络30秒,观察网络流量为81%(但网管报告为0.2%),错误帧97.6%。错误类型为Ghosts(占93%)、FCS错误(又称CRC错误)和Jabber,即幻象干扰、帧校验错误和超长帧,这表明网络中有大量的非法数据包存在。此类症状一般以电磁干扰和接地回路方面的问题居多。为了确定干扰源的准确位置,将大部分与工作站相连的集线器组电源关断,服务器继续工作,观察错误率降为87%,仍然很高。重新打开集线器组电源,用F43电源谐波测试仪观察,发现谐波含量严重超标(最高970mV)。该网络用一台大型UPS电源给所有网络设备供电,测试UPS输入电源谐波,约为输出电源谐波含量的30%,明显低于输出端的指标,断定为内谐波含量超标。启动小型备用UPS后,网络恢复正常工作(为减少负荷,网络设备分批轮换接入),但网络测试仪显示仍有错误存在,错误率(幻象干扰)下降为1.3%。再次关断集线器组的电源,类型为Ghosts的幻象干扰错误率下降为0.8%,证实仍存在由接地回路串入的幻象干扰,且应该是从主通道进入。摇动卫星接收机的数据输出电缆,幻象干扰时有时无,拔下电缆则干扰消失。网管人员回忆前日维护机器时曾动过该电缆。由此造成连接不良。为使股民能继续交易,稳定情绪,在更换电缆后又将原UPS启动继续工作提供服务。收市后再更换大型UPS,故障彻底排除。

[诊断点评]故障原因有二,一是UPS对电源的净化能力下降,网络外谐波容易从电源系统串入网络系统,为重大故障的发生提供了基础,但只是累积的内谐波超标还不足以引发致命问题。二是接地回路问题,给大量的内谐波串入网络提供了通道。内谐波是指从电源净化设备的输出端比如UPS的输出端测得的谐波功率,由各种用电设备产生(网络设备绝大多数都采用开关电源,本身就是一个较大的谐波源)。本案中,大量的内谐波功率叠加后从卫星接收机数据输出电缆串入交易网络,一方面以幻象干扰的形式侵蚀网络带宽(此时网络测试仪监测到的错误类型即为Ghosts),当以太网的网络总流量高于80%时,会导致绝大多数的网络瘫痪;另一方面,串入的内谐波将干扰正常数据传输(与正常的卫星广播数据叠加,表现为FCS帧错误和少量长帧),使卫星接收机接收到的数据出错,显示屏出现大片空白或不能实时更新数据。本故障为累积故障,两个月前因UPS性能下降就开始出现少量干扰超标,不过这没有引起网管人员的足够重视。前天维护设备后又增加了电缆接地回路的干扰问题。但因当时未将卫星接收机连入网络,网管人员仅检查了网络部分的工作状况,所以此时的网络表现肯定是正常的。直到今天临近股市开市,当接通卫星广播数据的输入通道时,问题才爆发出来。此时内谐波干扰信号大举入侵网络,几乎造成网络瘫痪。

关断集线器组电源,内谐波总功率下降,干扰信号强度减弱,错误率自然有所下降。更换UPS电源后,错误率大幅下降(理论上应降为零)。但因接地回路问题使50Hz电源及其高次谐波感应信号仍能进入网络形成较小数量的错误帧。需要注意的一点是,一般人在更换UPS 后看到网络恢复正常工作即认为故障已经排除,因此很容易忽视仪器监测指示仍存在的少量错误(1.3%),这可能使“接地回路问题”这一重大故障隐患得以长期存在下去。

此故障的诊断网管系统基本上无能为力。

[建议]电源谐波功率含量和网络错误率要定期测试,当发现错误帧时一定不要掉以轻心。另外,一路电源能带动的工作站建议不要超过30台,否则应象划分网段那样重新划定供电区域。以免内谐波功率累积过大,超过设备的容许范围。如果您的网络可靠性要求很高,或者您的网络对您来说非常重要,那么建议您将主要的网络设备如服务器、路由器等,在网络规划设计时就选择由单独的UPS供电。

[故事之三]光纤链路造侵蚀损坏

[症状]周末,要下班了,我正在计划如何安排假期,接某银行来电,报告该行某支行下辖的西区营业部网络瘫痪,营业部所管理的33台ATM取款机也全部不能提供取款服务,用户反响强烈。已经两天了,解决都没有问题,要求网络医院立即派人帮助排除。

西区营业部和支行在同一个大院的两幢大楼内,之间用一对90米的光纤将营业部的网络与支行的网络连接起来,路由器、服务器等都设在支行计算中心(100BaseT以太网)。营业部的网络结构为10BaseT以太网,五天前发现网络速度变慢,用户抱怨ATM取款机等待时间太长。由于营业部没有配备任何网络测试和维护的工具,为了定位故障,请支行计算中心的网管人员协助检查。从支行一端的网络监测显示,一切正常。从计算中心打开营业部交换器的Mib,观察流量正常,为5%,发现只有很少量CRC/FCS错误,没有发现严重异常,用协议分析仪捕捉数据包观察,也未发现严重的问题,遂怀疑是病毒侵害营业部子网。昨日夜间进行了查杀病毒,重装系统,恢复数据等工作,症状大大减轻。但未能经受住昨夜暴风雨的考验(本周天气除昨天下午间晴外,连续降雨),最终于今晨“死网”。

为便于观察,支行网管人员在计算中心将连接营业部的交换机用集线器暂时取代,结果导致支行网络速度也变慢。检查营业部内的交换数据无障碍,断定是传输通道的问题。拔下光纤,支行速度恢复正常,插上光纤则上述现象重新出现。进一部测试光纤链路,连接和衰减均符合要求。故障排除工作陷于停顿。

[诊断过程]据网管人员介绍的上述情况,光纤和交换机已经过了网管人员初步检测,基本正常。可以初步判定问题出在链路通道上。将F683网络测试仪接入营业部交换机,观察网络基本正常。进行通道测试,检测营业部到支行的ICMP Ping测试结果,成功率约0.8%,路由追踪支行服务器,成功率约0.5%。从支行集线器上观察,流量18%,属正常范围,但发现大量“幻象干扰”错误“Gosts”(16%),拔除光纤,则错误为0%,至此可以肯定错误与营业部网络及其通道有关。将营业部与支行连接的交换机接口串入一个4端口的集线器,用F683网络测试仪观察网络,流量5%,发现大量幻象干扰(97%),拔除光纤,错误消失。寻找光纤接线箱,发现支行一侧的接线箱外包装已被撞击变形、破损(据说是半年前安装空调时被吊车臂碰坏),雨水已将3号接头完全浸蚀(3号接头用于连接营业部)。清洁接线箱内的所有光纤接头,用电吹风加热干燥光纤的插头插座,重新更换并密封接线箱,故障彻底消失。[诊断评点]光纤链路经常被忽视。本故障中,光纤接头因雨水侵蚀和污染,从营业部送来的信号被大量反射,此时若只测试光纤链路的物理性能是合格的。但由于此段光纤只有90米,强反射信号经过较少的衰减后与正常信号叠加,破坏了数据的结构(包括数据帧帧头信号格式),网络测试仪即认为这是幻象干扰信号而不是正常的数据信号。此时只有少数信号可能侥幸通过。由于集线器和交换器不具备前期碰撞的识别能力,所以从网管上只能观察到数据帧后半部分被破坏后所表现出来的少量FCS/CRC类型的错误,此错误往往被人忽视。

昨天重装系统后因天气转晴,光纤接头性能有所好转,症状减轻。昨夜暴雨又使网络陷入灾难境地。加上今天测试光纤链路显示正常,致使故障排除陷于停顿,束手无策。

[建议]交换器对均衡网络负荷、隔离故障网段对网络的影响有很好的效果,但也因此经常成为网管系统监测中的“黑洞”。用网络测试仪定期监测网络可以将故障消灭在萌芽状态之中。

定期测试分很多种,我们将在以后的连载中陆续介绍。本故障如不及时处理,其它光纤接头连接的网络也会陆续出现严重问题。

[故事之四]水晶头损坏引起大型网络故障

[症状]某大公司IT经理黄先生是我的朋友,新年将近,喜事却不多。今天来电要求帮忙查找“元凶”。

事情是这样的,公司规模发展很快,两周前对网络实施了一次比较大的扩容工程,新增加了200台工作站(为新员工配备),网络规模由2000个站点增加到2200个站点,全部在一个网段中。该公司采用100BaseT以太网结构,用两个路由器实现与生产基地和开发基地的连接(新换2个155ATM骨干),以前我曾建议他们将网段划分小一些,以便管理和隔离故障,但因网络未出现什么大的故障,加上黄先生本人的丰富经验和自信以及维护经费未落实等原因,网络一直保持了这种大型网段的“危险结构”。这次扩容同时将两条广域网骨干链路升级到155ATM,但网段结构仍然未作根本调整,计划留待下期工程时再作打算。本周内网络已多次出现阻塞现象,每天至少两次,每次阻塞时间10~30分钟不等。逐个仔细检查了新安装的200台工作站,没有发现任何问题。由于故障不是持续存在,Boss催得又紧,故令黄先生颇有些“精疲力尽”的感觉。

[诊断过程]上午10:00,打开路由器的MIB库,记录的参数基本正常,网络平均流量13%。其中有约1.5%左右的碰撞,表明网络结构的绝大部分构件是好的。给新增加的200台工作站Share一个软件,然后每40台一组同时下载并操作该软件,结果证明200台工作站工作基本正常。将F683网络测试仪接入网络,同时将F693网络流量分析仪也接入网络进行监测。下午14:21分,网络阻塞现象出现,持续时间15分钟,F693流量分析仪监测的流量正常,平均流量从9%上升到13%,一分钟后下降为8%,但F683网络测试仪的流量报告为84%左右,其中碰撞帧占82%~87%,少量FCS损坏帧(约2%~4%左右)。记录该时间前后的Protocol Matrix协议对话图谱,发现在15分钟阻塞时间内

共有137个工作站曾发送或接收过数据,其中4个工作站一直在持续收发数据,有一个工作站发送的数据包流量一直占其它工作站流量总和的15倍左右。幸好黄先生以前对站点的Mac地址做过文档备案,依据仪器显示的Mac地址我们立即确定了这4个工作站的使用者(流量最大者是财务科陈小姐的地址)。随即询问他们最近有无更动过硬件和网线,有无增删或调整过软件,回答均是“没有”。询问陈小姐刚才在使用何种软件与生产基地的小张联络(Protocol Matrix协议矩阵指示为小张的工作

站)。回答是“机器一直就连在网上,但刚才没有使用计算机”。将网络测试仪连接到陈小姐的台式机网卡接口上,模拟发送流量,结果碰撞随流量的增加而大幅增加。测试该链路的网卡和网线,显示插头为3类插头,链路近端串扰超差比较多。重新更换5类插头后,网络恢复正常。

经过私下再三询问原因,陈小姐才道出了实情。

[诊断评点]本故障是由更换不适当的3类插头引起的。新员工小张是陈小姐的多年不见的同学,也是个网虫。此次与陈小姐在新公司相遇,自然倍感亲切。一周前小张在帮陈小姐安装新声卡时不慎将插头损坏,随意用一个3类插头更换之。临近新年,陈小姐在小张的指点下从网上陆续下载了不少大容量的贺年卡,均为动态电影格式,可以在网络上实时传送播放并加上双方对话,非常有趣。该站点平时使用的财务软件无论是传输速度和数据量都很小(3k 左右),对整个网络系统影响不大。但在向小张放送解压后的动态电影贺年卡时数据流量约在3~4Mbps左右。由于网线问题,事后推算传输的数据帧约有13%是有效的,其余均被反射和串绕所破坏须重新发送,表现为网络上大量的碰撞帧和少量的FCS帧。

[建议]大型网络不划分网段既不便于管理又很难隔离网络故障,此种结构是非常少见的,同

时也是非常危险的。该公司网络大部分采用的是集线器,只有很少几台交换机,这对故障隔离也是不利的。另外,一定要对员工进行上机前教育,不能随意增删、更改软件和网络设置。所幸的是黄先生本人经验非常丰富,平时已将文档备案工作做得很细致(国内多数网络在文档备案时不将网卡的Mac地址备案),否则是不可能在半小时内查出本故障,一般来讲,可能会耗费1~3天左右的时间才行。

[后记]黄先生经过此次“洗礼”,也悟出一点当好IT经理经理的绝招。至少他已不再认为仅凭经验就可以“打遍天下无敌手”。网络维护是一门艺术,更是一门科学或工程,没有适用的工具和科学的方法是达不到这最高的“艺术境界”的。至于陈小姐,我们还是愿意善意地再为她,也为小张保守一段时间的“秘密”。

[故事之五] 雏菊链效应引起得网络不能进行数据交换

[症状]下午某市工商局信息中心来电,其下辖的某县工商局今晨与市局的联网出现问题,速度与往常相比速度慢了许多。其中与该县工商大厦七楼的计算机基本上不能进行数据交换。而与其它楼层的计算机通信虽然速度较慢但还基本上能维持正常的数据交流。由于该市在规划计算机网络广域联网方案时没有考虑将来自身维护的问题,只是简单地在工程合同中将维护工作交给工程承包商负责,自己没有配备专门的工具和培训专门的人员来维护网络。该工程承包商当时负责此项工程的人员早已离开这家公司,故对今日的故障只能表示爱莫能助。经人介绍找到了网络医院。

[诊断过程]我们当晚即乘火车抵达该市并连夜开始查找故障。该市网络规模挺大,下辖7县6区87个工商所,市县局之间用64K的DDN链路连接,工商所与县区局之间用电话线连接。从市局向故障的县局用F683网测试仪作通道测试,速度4K时就上不去了,响应时间804ms,ICMP Ping显示县局路由器连接成功率在1/7左右。将县局网下挂的所有网络设备断电并拔下所有与路由器相连的联线插头,只留下路由器和一台集线器、一台笔记本电脑与之相连,再作通道测试速度为54k,响应时间46ms,ICMP Ping成功率100%。由此证明故障不在DDN链路,而在县局网络本身。

驱车前往县局工商大楼,恢复大楼网络设备的供电,插上全部线缆插头,然后将Fluke公司的F683网络测试仪接入网络进行网段扫描,30秒后显示双路由器IP地址错误,伴随少量FCS类型帧错误。显然,故障与地址设重的这台路由器有直接关系,但网管人员不知道这另一台路由器来自何方,查机器文档备案资料也无此路由器的资料。经再三询问网络管理人员,才想起原来有一个废弃的备份路由器,半年前就早已经不工作了。虽未从早期不用机架上拆下来,但一直未让其上电工作(电缆联线也未摘下)。我们检查该路由器时却发现它正在上电工作!!,系何人所为暂且不查,立即将电源插头拔下另路由器断电,一分钟后市局来电网络速度恢复正常。此时F683网络测试仪虽然显示双重地址消失,但仍然有少量FCS类型帧错误,这说明网络还存在问题,而且主要是布线及链路设备的问题。联系七楼数据交换比其它楼层困难的故障现象,用F683向各楼层的计算机定点发送流量,结果发现与一楼、二楼和市局的定点数据发送FCS帧错误明显增高,其它楼层正常。基本可以断定是由于雏菊链效应造成的典型故障。据网络管理人员介绍,本网络平时就感觉七楼与市局和一楼、二楼的网络连接速度有时变慢,偶尔会有中断现象。查工程图纸,上面只标有一到五楼的布线及网络设备的分布图。六楼七楼的设备由于是半年前该局自己增加的,所以没有标示。无赖我们只得沿集线器布线方向查找网络连接结构。简单的计数就可以知道,七楼的设备与一楼、二楼的设备(路由器在二楼)集线器总数为5个,这很容易引起数据包的延迟碰撞(在10Base-T网络中则表现为

FCS类型错误帧)。

[诊断评点]雏菊链效应是指局域网(10M网)内任何两个站点之间的集线器数量超过4个后引

起的数据传输时间超长而引发的网络错误现象。本案中七楼、六楼为后来增加的网络,网络管理人员没有规划网络就想当然地将集线器按级连方式连接起来,结果出现雏菊链效应。如果不是有人昨天将备份路由器偶然接入网络造成广域网故障,雏菊链效应还将作为一隐患长期潜伏下来。

一般来讲,路由地址竞争将引发严重的路由瓶颈问题,另外路由与服务器、交换器等地址竞争也同样会引起严重的带宽平衡问题。路由与工作站地址竞争情况会好一点。

该市工商局的网络维护和管理可以说基本上处于空白状态,这也是国内许多网络维护管理的典型现状。如果说前几年主要精力放在了网络的建设上,那么现在该是将网络的健康维护工作提到议事日程上来的时候了。否则随着网络规模、速度和复杂性的增加将会后患无穷。[诊断建议]改变六楼、七楼的集线器连接方式,或者重新做正规布线;指定专人妥善管理备份路由器;培训网络维护和管理人员,配备适当的维护工具,对网络的工作状态做一些必要的定期测试和登记。另外,网络的文档备案工作非常重要,一定要仔细做好这项日常工作,硬件备案时一定要将机器的Mac地址一一对应备案。

[后记]三周后该市工商局对全局系统的网络作了一次全面清理,我们随后应邀对其网络进行了一次抽查,情况基本良好。至于上次的“备份路由器上电案”一直没有人“承认”之。

[故事之六]网线制作不标准,引起干扰,发生错误

[症状]某证券公司求诊,要求查找错误源。近日股市火爆,新增不少用户,但一周内已经三次出现交易数据错误,数据恢复也进行了三次。虽然涉及的金额不大,与证券交易所的资料核对不上,昨晚对历史记录和当日交易记录进行了比较,发现在同一时刻往往有几个用户的交易数据出错。怀疑存在病毒或恶意用户捣乱的可能,用多套软件查杀病毒,并重新安装系统,恢复备份的数据。不料今日故障现象依旧出现。

[诊断过程]该网络99年2月进行了改扩建,全部采用NT平台。最近又新增家50个站点。根据一般经验,先对新增加的工作站极其联网系统的状况进行常规检查。由于现在已经休市,网上错误无法观察。用流量发生器模拟网上流量进行体能检查,结果如下:正常数据帧下限帧长64Byte各类型帧体能检查,网络致瘫流量为99%,上限帧长1518Byte的致瘫流量为99.5%,错误帧50Byte短帧致瘫流量为90%,错误帧4000Byte超长帧致瘫流量为97%,碰撞最高时为6.4%,略偏高。无新的错误类型出现。从交换机处测试只发现少数传输延迟数据包,以上数据说明,被检查的网络是一个“身体素质”相当好的证券网络。仔细研究发生错误的工作站,发现是在同一个新增用户的集线器组当中,该网段通过一交换机接口与服务器相连。除了对交易服务器和行情服务器分别进行体能检查外,对该网段内的工作站也进行体能检查,各站表现正常。各工作站模拟流量和交易也都正常。可以基本判定,该网络是一个承受能力很强的优秀网络。由此我们怀疑可能存在“恶意用户”(注:恶意用户是指在工作站上安装自备软硬件或将工作站网卡插头拔下并将自带笔记本电脑私自接入的用户,其目的叵测)。为了跟踪数据出错的情况,将F683网络测试仪接入该网段作长期监测。第二天故障现象没有出现。第三天下午开始后10分钟,即13:10分,网络测试仪监测到该网段大量错误出现,其中FCS帧错误占15%,幻象干扰占85%,约持续了1分钟。FCS帧涉及本网段的3个用户。该证券系统装备有CCTV闭路视频监控系统,从长时录像机中可以发现故障对应时刻13:10有一个用户使用了手机,仔细辨别图像画面发现其使用的是对讲机。

无风不起浪,对讲机的功率比微蜂窝手机的功率要大得多,使用频率也更接近网络基带传输的频带,容易对网络造成近距离辐射干扰。但是,一个合格的、完整的UTP电缆系统在5米外还完全能抵抗不超过5W的辐射功率。从故障现象推断,本网络的电缆或接地系统可能有一些问题。随即决定查找本网段50个站点的布线系统(扩容时没有经过认证测试),用Fluke 的DSP2000电缆测试仪进行测试,测试结果全部通过。只在中心集线器与交换机端口的插

头发现接头线做得很差,外包皮与接头之间有15厘米的缺失,线缆散开排列,双绞关系被破坏。交换机的物理位置离用户仅隔一面玻璃幕墙,直线距离1.5米左右。可以基本断定,对讲机发出的较大功率的辐射信号就是由此处串入系统的。

重新按TIA568B标准的要求打线,连接好系统。

[诊断评点]出问题的网线接头是扩容施工时的最后一根遗漏的网线,为本部工作人员自己临时增补上的。他们不了解TIA568B所要求的打线标准,乃随意为之。系统中串入干扰的途径有多种,比如大动力线与网线并行距离太近或干脆就在同一个走线槽内;与某些辐射源(包括日光灯、电焊机、对讲机、移动电台等)距离太近;系统设备的接地回路不良等等。本案是由散列的网线接头引入近距离的辐射干扰造成。由于对讲机用户比较特殊,他们的干扰是短时的,查找时有时需要“守株待兔”。当然,如果网线全部经过严格的测试,应该不会出现本例故障。

[诊断建议]建议按标准化的布线环境来设计布线系统,更改系统结构后一定要测试电缆。合格的UTP电缆系统抵抗辐射干扰的能力是很强的,但要求电缆系统必须经过严格的测试(事实上多数布线系统只测试过物理连通性,未做严格认证测试,存在着大量的隐患)。大量的问题都出在不起眼的接头上。建议年检时将布线系统作为年检内容全部检查一遍(也可以以一年或两年为周期平时进行轮测,测试标准可选用北美标准TIA568A/568B或ISO11801等)。营业室内最好禁止使用大功率对讲机,部分大功率模拟手机也要列入禁用清单。

故障检测中,应重点检查最近动过的或变更过的设备,此为经验之谈。不过,一个有趣的现象是,当你向某个事后证明他确实更改过设置的用户询问时,经常得到的答复却是:没有动过任何东西。

[后记]按约定时间接到了该证券公司的通报,系统已稳定地工作了两周,没有再出现同类问题。施放干扰的用户是一位具有合法使用对讲机权利的公务人员(在此不便披露具体细节),利用工作之便业余炒股,每天会到股市“例行巡查”一番,已接受劝告。

[故事之七]插头故障

[症状]某电信移动计费中心,用户反映,近三个月移动用户总数增加了近30%,但移动计费的营业收入却只增加了5%,怀疑计费系统是不是有问题。从计费服务器查看收费记录,没有发现什么问题。检查计费服务器软件,工作正常。从路由器另一侧的财务服务器检查,内部的财务服务器显示的计费数据与计费服务器的数据没有差错。查找电话局局端记录,发现记录次数超出移动计费的记录次数。最后作实地测试,用移动电话拨打50次,记录次数45次,记录时间与实际通话时间一致的次数为30次。历时一周,还不能确定故障位置。

[诊断过程]计费服务器连接到一台16端口交换机Bay28115的第一插槽5号端口。第6号端口下挂一个100Mbps的以太网,网管机HP Open View也设置在此。打开网管系统,准备观察5号端口的工作情况,这时才发现无法打开5号端口的工作表数据记录。询问网络管理人员,告知3个月前因交换机故障自行更换过备用的Bay28115交换机,更换后系统工作很正常。查看维护工作记录登记和日志,没有任何关于Bay18115的维护说明,也没有关于网络工作参数的记录(记录上显示的还是系统开通时的原始数据)。询问网管人员为何不设置并打开交换机工作表的Mib。答曰网管系统是一年前安装的,平时只用来看看系统设备是否连接以及是否有报警信号,更多的功能也不会用。前任网络管理员已调任工作岗位,实际上现在已没有人会使用和设置网管系统。由于系统开通是有系统承包商负责的,自行更换交换机后没有发现什么问题,也没再仔细检查。

用网络测试仪的协议对话分析功能从网管机所在网段观察计费服务器的工作情况,发现服务器对约有1/3的数据包没有回应。为了不影响系统工作,于凌晨3:00在移动用户使用率底的时候用F683网络测试仪模拟服务器测试5号端口,显示链路工作于10Mbps速率(原始记

录显示此端口的速度应该是100Mbps)。由于交换机没有启动SNMP支持功能,故临时在5号端口安装了一只10Mbps的集线器与服务器连接,用网络测试仪从这个集线器的任意端口对计费服务器发送数据并观察服务器数据流工作情况。发现大量碰撞和错误的FCS帧,当流量为30%时,碰撞及错误流量占21%。用电缆测试仪检查服务器电缆,发现靠交换器一端的插头处近端串扰NEXT严重超差。重新更换插头并正确打线,碰撞率下降为0.5%,错误率为0%。去掉临时集线器,重新启动交换器的SNMP功能,从交换器某空闲端口向服务器发送流量,用网管系统观察5号计费服务器端口,当流量为40Mbps时,碰撞率、错误率、广播率等参数均表现优良。服务器自适应恢复为100Mbps链路速度。

重新进行两组各50次实际拨打测试,计费数据完全正确。可以基本肯定计费功能已全部恢复正常。

[诊断评点]本次故障的原因非常简单(一个插头问题),但表现出来的现象则稍微复杂一些。该服务器使用的是一个10/100Mbps的自适应以太网卡,设计链路速度为100Mbps。网管人员在更换交换器时曾不小心将插头拉坏,随即更换了接头,但确留下隐患,不过,维护人员并未及时发现速度方面异常。服务器链路此时的实际工作速度已经下降为10Mbps。新交换器没有启动SNMP支持功能,网管系统也就不能观察计费服务器的端口工作状态。在平时的维护工作中,该计费中心的维护人员基本上不用网管系统定期观测并记录网络的工作参数,当故障出现时就不能觉察到服务器工作速度的变化。有趣的是,如果电缆没有问题,即使将链路速度设置为10Mbps,计费服务器应该还是能正常工作的(计费信息的网络流量一般不高)。在本故障中,计费服务器繁忙时由于碰撞率和错误率太高,服务器无法处理一部分数据包,其中已经被“挂号”的部分数据包将被丢弃,造成计费数据不准确。

[诊断建议]布线系统平时要定期轮测(一至两年轮测意义遍)。更换链路元件后一定要对链路进行测试(尤其是100Mbps链路,必须用电缆测试仪测试)。网管系统要指定专人进行维护使用,一般来讲,网管系统可以覆盖约35%左右的网络故障,因此强烈建议重要的网络要安装支持SNMP或RMON协议(多数网络设备都支持SNMP协议,部分支持RMON),启动已有SNMP、RMON等功能的网络设备,否则网管系统将形同虚设。维护工作要求有及时完整的记录,这对提高处理故障的速度是非常必要的。

[后记]经过一个月的运行,收费系统“贡献”了35%的收入额,大喜。初步尝到了甜头,计费中心上周决定派两名维护人员到“网络学院”参加为期一周的“网络维护及故障诊断技术”培训课程。

[故事之八]5类线Cat5勉强运行千兆以太网

[症状]某期货交易所,网络改造为千兆以太网后只有1个网段能正常工作,其它12个网段工作均不正常,数据时有出错,连接经常会莫名其妙地中断。每个网段用千兆以太网连接起来,下挂的网段均是100Mbps用户端口。起初怀疑是系统运行的平台或者软件有问题,经过多次重新安装和设置仍不能解决问题,而且同样的系统在其它地方的交易网络中应用是正常的。因而转向怀疑是否是布线系统的问题,比如电缆不合格或是有干扰信号串入以及接地系统等方面的问题。每个网段均利用升级前铺设的电缆系统连接起来,未作大的更改。由于计算机网络的布线系统采用的是标准的5类线方案,根据千兆网的设计标准,采用4对线全双工工作,5电平编码,占用的信号物理带宽正好是100MHz,故5类线应该是完全可以胜任的,况且一般情况下期货交易网络现有的流量水平远不能达到满载运行的程度,流量很低。重新用专业电缆测试仪作过严格的认证测试,显示参数合格并且不存在脉冲噪声干扰或接地方面的问题。

所谓能工作的那一个网段是因为行情和交易服务器都安装在该网段中,本网段内的工作站与服务器除了个别站点外都可以上网连接工作,进行行情浏览和交易割接。其它网段内的服务

器对内连接时除了个别工作站外也基本正常,共同特点都是不能与行情服务器和交易服务器所在网段实现良好连接。系统升级时原布线电缆全部保留不动,经过测试也全部合格,不知原因何在?

[诊断过程]不能连接的因素很多,象网络硬件设备的功能设置问题、布线系统的问题、操作平台的安装设置问题、应用软件的安装设置和软件冲突方面的问题等等。从用户所反映的情况分析,各个网段内的站点基本上全部能工作,网段之间的连接比较困难,可以初步确定故障出现在网络设备设置和布线系统性能等方面的可能性大一些。

将网络测试仪F68X接入能连接服务器和交易服务器的网段(100Mbps),观察网络流量5分钟平均为12%,FCS帧校验错误帧约11%,碰撞率1.7%(正常范围)。显然FCS帧校验错误比例偏高,查看错误源,显示为其它网段站点产生FCS帧错误的比例占错误帧总量的97%。各网段的错误帧比例差别不大。由于有大量的FCS帧普遍存在,所以各网段内的各站点同时出问题的可能性很小,用F683向各网段内的服务器或站点发送流量,FCS帧错误随流量增高而迅速增加,各站点或服务器反映基本一致。启动网络测试仪的ICMP Ping功能,统计对各网段内选定的站点和交换机、路由器等的测试结果,表现基本一致,即:ICMP Ping断层约96%,ICMP Monitor显示目标不可达占91%。

改在其它网段内作同样内容的测试,对行情服务器和交易服务器所在网段的路由器和交换机结果基本与前项测试相同。所不同的一点是,对其它网段内的交换机和路由器等网络设备的测试结果显示是正常的,数值为:ICMP Ping断层为0%,全部可以通达,ICMP Monitor目标不可达为0%。基本可以肯定,故障出在行情服务器网段与其它网段的连接链路上。用FLUKE公司的DSP-4000电缆认证测试仪选用TIA Cat5n Channel UTP100标准测试,显示长度为25米,链路测试不合格。其中,回波损耗RL和衰减串扰比ACR等参数超差。改用同样长度的一根超5类线Cat5e代用之,启动系统,除了各网段内个别站点外,整个网络恢复正常。监测高峰时的流量,服务器所在网段最高时平均流量为3%,可见故障时12%的流量主要都来自大量的重发帧流量。

[诊断评点]千兆以太网可以满足网络用户对大带宽应用的“贪婪”胃口,无疑是网络下一步的重点发展方向。千兆以太网的设计者在选用电缆类型时对5类线Cat5已经存在的应用规模考虑比较多,所以选择的物理带宽为100MHz。这样,原则上5类线是可以运行千兆以太网的。但实际的统计结果表明,仍有1%~5%的用户不能上网或连接出现断续和困难。也就是说,千兆以太网对5类线的参数要求更严格一些。只要用户对5类线布线系统进行过严格的认证测试,可以保证绝大多数的站点是可以联网工作的。少数站点因为某些参数余量小可能有上网困难的现象。影响比较大的参数有综合近端串扰PS NEXT、综合远端串扰PS FEXT、等效远端串扰ELFEXT、综合等效远端串扰PS ELFEXT、回波损耗RL、衰减串扰比ACR等。此时需要对5类线进行Cat5n标准测试,该标准是专为用5类线运行千兆以太网的用户准备的,如果依循该标准测试都合格,则可以放心地用5类线系统运行千兆以太网。新的Cat5n标准中,回波损耗对系统的影响比较大,并且,由于电缆匹配方面的阻抗不连续问题,越短的电缆链路反而越容易出问题。本例中,由于电缆长度为25米,虽然衰减串扰比ACR参数也不合格,但,回波损耗引起本故障的可能性要大些。

[诊断建议]对5类线的认证测试可以适当考虑选用Cat5n标准进行测试,这样可保运行千兆以太网网时不出问题。如果选用超5类线Cat5e进行布线,则一般不会有不能运行千兆以太网之虞。对用Cat5n标准诊断出来有问题的5类线链路,为了以最小的成本换来网络性能的提高,一个最简单的办法就是用超5类线Cat5e代换参数不良的个别链路。注意,联结模块最好一并更换,以保证链路的安装质量。

[后记]遵循我们的建议,两周后该期货交易所将全部的安装链路用DSP-4000电缆测试仪选用TIACat5n标准进行了测试,全部站点数为1300个,不合格链路21个。对不合格的链路

改用超5类电缆后所有站点均工作正常,网络状态保持优良(该网络平均流量高峰时才3%)。

[故事之九]电缆超长,LAN可用,W AN不可用

[症状]今天的病人是某进出口公司,开通DDN专线后部分用户抱怨数据交换的速度变慢,且经常有联结中断的现象。网络支持人员虽经多方查找仍不得要领,故请求网络医院出诊援救。

该公司的网络结构原先是单纯的局域网,分布在三层楼面中,共有300个站点,每个楼层有100个左右的用户。配线间设在最上面一层的楼层中,用交换机将各楼层共分成三个网段。以前员工均使用拨号上网方式实现与Internet的联结,自我感觉网络速度还比较快,工作一直很正常。新近增加了路由设备,并申请开通了DDN专线。每个楼层用集线器将用户联结起来,结果最低楼层的员工反映有时速度很慢,并常有莫名其妙的中断现象。由于该公司没有配备任何网络监测工具,且在局域网内传输数据不受影响,只在上Internet网时才有麻烦,故直到工程竣工两周后才向网络医院求援。

[诊断过程]该公司的网络为10Base-T局域网,此次只增加了DDN设备和路由器,其它配置基本不变。故将网络测试仪F68X从最低楼层的某个用户端接入网络进行观察,平均流量为1.2%,未发现异常。改用流量发送功能作流量逐级递增的体能测试,也未发现任何异常。表面上看,该网段似乎没有什么问题。为快速定位网络故障,将流量发送到其它网段,同时观察网络状况。随着发送流量的增加,1分钟后发现错误帧,帧类型为FCS错误帧,并指示FCS帧来自第二层的某个用户。显然,只据此现象就判断故障原因为该工作站的网卡损坏或网卡驱动程序错误,似乎显得“证据不足”,因为整个楼层的用户反映的故障现象是相同的。继续观察到5分钟,发现FCS错误帧数量增加为10个用户左右,由此可以断定不是某个工作站的问题。为此,令其它楼层多个用户与故障楼层用户交换数据(比如拷贝文件),结果发现多个FCS帧错误。打开交换机端口工作表观察,本楼层的记录中也显示FCS帧错误,而其它的交换机端口工作表中没有FCS错误记录(交换机为非切发型交换机),这说明是本网段内存在者线缆超长的链路。再试着向Internet某个已知用户发送流量,并且进行ICMP Ping 测试,结果发现损失率为90%左右。由于刚才本网段内的体能测试未发现异常,所以

只能是集线器与交换机联结的单条链路有问题。测试该电缆,长度指示为175米!超长。[诊断评点]根据网络规范,以太网为碰撞侦听共享介质方式工作的。每个工作站到集线器的网线长度应不超过100米,方可保障无延迟碰撞(同轴电缆)或FCS帧错误。由于175米超常链路在集线器和交换机之间,所以本网段内的用户在交换数据时可以顺利进行。但与其它网段的用户交换数据时就可能处问题。但由于网络平均流量低,虽然在整个局域网内存在FCS 帧错误影响,对低流量局域网内的数据交换而言,其对速度的影响甚微。当同时有多个用户通过DDN进行W AN数据交换时,FCS帧错误将导致64K的出口流量浪费加大。这是因为64K比10Mbps的速度要低得多,流量中错误帧的比例较高,进入W AN链路时可能要经过多次重发才能实现远程数据交换,感觉网络速度明显变慢。且由于经常有FCS错误帧,较容易引起W AN链路联结时因错误而中断,综合表现为故障楼层的所有用户都抱怨速度变慢且常中断。

[诊断建议]网络速度低时很多故障现象都将被掩盖起来。建议网络拥有者在新的网络工程结束时应该进行两项验收:网络布线系统现场认证测试和网络验收测试(最起码要作体能测试和加载条件下的逐个工作站的模拟上网测试)。

[后记]一周后该公司重新划分网段施工结束,用户来电报告一切正常。

[故事之十]线缆连接错误,误用3类插头,致使网络升级到100BaseTX网络后无法上网[症状]某船运公司,为满足日益增长的业务需求,三周前开始网络升级改造工程,按设计规

划将10BaseT网络全部升级为100BaseTX以太网,电缆系统不作任何改动。昨天设备安装调试工程全部结束,今天凌晨开始网络割接作业。所有工作站更换100BaseTX以网太网卡,然后分批接入网络。此时工程人员发现一些奇怪现象,比如:有些工作站不能联入网络;有些工作站第一次可以联入网络,过一段时间再次连接则无法进入;有的工作站开始时能联入网络并且工作很正常,但过一段时间后则出现连接断续或数据出错的现象。集成商起先以为是网络平台安装不当,遂将系统平台重新清理并安装了一次,出问题的工作站系统软件和应用软件也进行了重新安装,结果毫无改善。“折腾”了将近一整天,也无法为用户提供服务,业务基本中断。

[诊断过程]接到报告后立即赶到“出事地点”,启动包括故障工作站在内的全部系统成员进入网络运行。用F683网络“万用表”对故障网络首先作常规健康测试,一分钟后测试结果如下:网络利用率1.3%(此时员工已经全部下班),碰撞率8%,错误率11%,广播9%。显然网络碰撞率和错误率比较高,打开错误诊断定位功能,显示FCS帧错误、本地碰撞、碎帧等错误计数。这说明网络可能存在网卡工作失常、电缆系统故障、干扰或接地回路等方面的问题。查看具体的FCS错误帧测试结果,发现有许多工作站发出错误的FCS数据帧。一般来将,同时存在多个网卡失效的故障是不大可能的,此时的FCS帧错误多数由电缆问题尤其是有超长链路的电缆问题所引起而不是由网卡所引起。但为慎重起见,我们先随机抽查其中两张网卡进行测试,结果正常,再测试对应的集线器端口,其物理参数结果正常,工作协议匹配无异。由此则可以有把握地确定故障的原因是由电缆系统的问题引起的。

用户告知,本系统采用的是五类线,共有270台工作站,划分为6个网段,有一个专网路由器和一个公网路由器,升级前一直工作在10BaseT以太网状态,整个系统除了业务一部经常反映网络速度偏慢和偶尔的连接断续外,其它部门使用状况一直很正常(业务一部工作量最大)。

今天开始升级工作后部分工作站出现上面提到的各种故障现象,涉及范围大约有近三分之一的工作站。询问用户以前是否对布线系统进行过测试,答曰:“只测试过通断,因为在10BaseT 以太网一直能上网,所以布线系统应该不会有问题。”

为快速定位故障,随机抽取了其中10条有问题的链路进行测试,结果为:一分二插座故障8个,3类线连接模块3个,综合近端串扰PS NEXT参数不合格4个。检测结论:该系统布线工程存在严重问题。

[诊断评点]网络布线工程的低劣质量一直是综合布线工程中的一个让人担心的严重问题。目前虽然有成熟的测试标准和方法,但多数用户并不知悉或不要求按标准进行现场认证测试。本系统的电缆故障存在多种原因,均是由于工程设计、施工和验收不规范造成。现分述如下:a)一分二插座故障:系由接线错误所至。用户在设计时没有考虑到扩容的需要,所以在新增用户时采用了这种不规范的一分二插座,一个插座可以连接2个PC机。从原理上讲这种用法是基本上可行的,这种接法要求将1-2/3-6两线对联接一台PC机,而将4-5/7-8两线对联接到另一台PC机上。但实际的测试结果却发现线对接法是1-2/3-6和4-5/3-6,用户把3-6线对当成了直接的“共享媒体检测总线”!!在10BaseT网络中这种错误接法可以勉强工作。虽然这会造成全部网络流量中的数据帧会存在不少错误,但由于多数现存网络的利用率(流量)不高,用户是难于察觉布线中程中的此种异常情况的。

100BaseTX网络对阻抗不匹配和近端串扰比较敏感,升级后这种错误接法会导致上网困难;(注:同轴电缆可以用三通匹配连接器将工作站接入网络,此时阻抗仍保持连续,但双绞线不可以直接并联,否则阻抗异常。)

b)该系统在用户数增加,网线数量不敷使用时网管人员进行了自行扩容,不幸的是他们选用的是假冒的5类插头(实际上是3类插头)。在10BaseT网络3类插头不会影响网络正常运行,但升级后近端串扰NEXT等参数将严重影响工作站与网络连接并经常导致数据出错。不经

测试,此3类插头将会长期潜伏而不被发现。

c)由于采用一分二插座,测试电缆的近端串扰指标时必须考虑其它线对的综合影响(非一分二接头的链路多数只使用两对线的网卡),因此,在数据流量大时,综合近端串扰PS NEXT 等参数不合格的链路有可能出错或导致工作站连接困难。

[诊断建议]网络投入运行前,布线系统(电缆、光缆)要首先进行认证测试,用户可以选择的标准很多,目前多建议选用TSB-67或ISO11801等国际流行标准进行测试。只测试物理通断后就认为链路肯定可用,这一认识是非常片面的也是非常有害的。采用一分二插座的链路一定要测试综合近端串扰、综合远端串扰等高端参数,最好选择Cat5n标准进行认证测试。为此,我们建议船运公司将全部布线链路连夜进行测试和清理,并对清理后PS NEXT等高端参数仍不合格的链路进行最后标记,以便日后进行更换。

[后记]第二天清晨,测试工作全部结束,共发现连接错误的一分二插座88个(全部接错),误用3类插头54个。在纠正了所有插座故障和误用的3类线插头后,除了少数几条链路外,所有工作站均能投入正常运行。中午时分,中断了一天多的各项业务终于得以全面恢复。随后进行的网络性能评测也基本合格。

对于个别高端参数不合格的链路,我们建议网管人员随后更换链路或先暂时取消一分二的连接方式,以保证数据传输的正确性。

[故事之十一]网线共用,升级100Mbps后干扰服务器

[症状]今天的“病人”是某移动电话公司计费中心。据该中心的网络主管人员介绍,为了缓解移动电话用户解交电话费难的问题,该中心三个月前投巨资对原计费中心的网络进行了调整和升级。与四家被委托代收手机费的银行之间的网络连接速度从标准的64Kbps速率DDN 专线全部扩展为E1(2.048Mbps)速率,计费中心网络从10Mbps以太网全部升级为以交换机为主的100Mbps以太网。升级前各委托收费银行经常反映网络连接时常莫名其妙地中断,但一般能迅速恢复,业务妨碍不算大。升级后网络速度提高了很多,但其下辖的各营业网点(共计120个)在为手机用户办理交费收费手续时计算机屏幕上常会提示“网络远端故障,无法提供数据”或“数据传输不稳定,请检查网络”,此时营业网点的收费服务会暂停,用户意见很大。有时虽然还能提供服务,不过数据处理速度明显变慢,最差的时候处理一笔业务查询竟然需要反反覆覆操作5、6分钟(正常时一般在10秒钟以内)。比网络设备升级前反而要慢得多。

此故障每星期都要出现1到2次,每次从1小时到2小时不等。

由于一直没有查明升级前网络时常中断的真正故障原因,网络管理人员在做此次网络升级规划时曾心存侥幸地寄希望于通过设备升级来彻底排除这些遗留网络故障。遗憾的是,他们的运气实在太差,非但老问题没有解决,反而惹出了更大的新问题。遂向网络医院“挂号”求诊。[诊断过程]由于银行网和电信计费网不在同一个地方,出了“网络医院”我们需要决定先去哪里?从上述的故障现象初步分析,银行络网和移动通信公司计费中心网络以及其连接的链路都有可能存在问题。计费中心的网络设备和路由设备大部分在此次升级时都更换过,升级后故障依旧存在且表现更严重,基本可以排除新入网设备存在严重问题的可能性。网络测试可以从银行网络和计费网络同时着手。途中从银行各营业厅网络使用者处了解到,手机收费出现“麻烦”时银行的其它业务流程均保持正常,并不受此影响(此时电信计费中心网络的用户也没有反映网络异常)。这说明银行网络存在问题的可能性要比计费网络及其连接链路存在问题的可能性低。而问题出现在手机计费网络和与银行网络的路由设备范围内的可能性比较大,故我们决定先前往设在移动通信公司机房的手机计费网络进行检查测试,首先检查计费网络及其连接链路。

第一次网络测试是在网络没有出现故障时进行的,结果显示各项测试指标都显示网络工作完

全正常。将F683网络测试仪接入计费网络的交换路由器,监测网络的工作状况,显示路由器利用率为1%(相当于E1链路中有20Kbps左右的业务流量),错误统计为0%,与网管系统观察的数据完全一致,将F683网络测试仪改为与计费服务器并联的方式监测,测试结果相同,这表明此时网络工作很正常。在与计费网络所在地的局域网使用和维护人员交谈中了解到,网络工作人员从来没有感觉到他们的LAN有异常情况,虽然他们也知道手机用户在经常抱怨,但从计费LAN处检查不出什么实质问题,计费服务器表现也正常。故障出现时从网管系统上观察,路由器、交换机、计费服务器都没有问题。用OneTouch网络助理(即网络故障一点通)仿真用户流量对银行的路由器、银行网业务转接服务器(以上测试在银行进行)、移动通信公司的计费网络与银行网络的连接路由器、网络通道上的交换机、计费服务器等进行2分钟80%持续流量冲击测试(上述测试在计费中心),用F683网络测试仪监测移动监测各关键设备,结果基本相同,利用率为均80%,无错误出现,除了计费服务器处的碰撞率2%外,其它各处均为0%;ICMP Ping测试均在3ms以内,ICMP监测测试无拥塞、数据不可达、重定向、数据参数错误等显示,这说明,网络的通道测试结果是比较好的。在这种情况下,一般可以采用两种测试方法继续检查故障,一种是被动监测法,即将网络测试仪、流量分析仪、网管等监测设备启动,对网络实施不间断监测,等待问题的重新出现;另一种是主动测试法,即将所有涉及到的网络设备和终端设备及其业务均启动或进行人为地仿真模拟,然后监测网络的工作状态,进行故障定位。为了尽快定位故障,经与计费网、银行网网络管理人员商定,我们决定采用第二种方法进行监测和测试(注意,此测试方案需要动用很多的人力和物力),即将所有有关的网络设备网络终端设备启动,并安排人员进行业务流程模拟操作。

第二次测试在当天业务结束后进行。在启动所有网络设备5分钟后,预期的故障现象果然出现。从网管系统上观察,计费网和银行网的连接路由器流量上升为3%,交换机流量增加1倍,计费服务器流量减少70%,网络没有发现异常情况。用F683网络测试仪对整个计费通道的有关链路和设备进行移动监测,结果显示:路由器和交换机的数据与网管系统的观察结果一致,而计费服务器的流量为68%,正常数据7%,错误数据61%(幻象干扰Ghosts、FCS 错误碎帧等)。很显然,计费服务器与交换机之间的这条链路很可能有问题。

暂停业务,从计费服务器网卡上拔下电缆插头进行电缆测试,结果显示只有1-2和3-6两对电缆,4-5和7-8线对没有连接。网管人员解释,升级后除了新增加的布线外,电缆系统多数没有变动,只有少数链路进行了调整。进一步检查发现4-5和7-8线对连接到了另一台备份服务器上,该服务器用于每周两次人工对各种关键数据进行审查、备份并上报局有关单位。恢复业务,启动备份服务器进行数据备份和传输,结果故障现象出现。

将备份服务器临时用一条新链路单独连接,故障彻底消失。对换下的电缆进行测试,近端串扰NEXT不合格(超差-2dB,综合近端串扰PSNEXT-8dB)

[诊断评点]网络电缆内含4对(8根)细电缆线,一般的10Base-T和100Base-Tx网络只使用其中的1-2和3-6线对,4-5和7-8线对不用,在10Base-T网络中曾流行将4-5或7-8线对用来传输电话,或者用4-5和7-8线对用来连接另一台电脑。在100Base-Tx以太网中,由于网络工作频率和数据率很高,串扰量很大,故这类用法是不被允许的。计费网络升级前有部分站点用一条电缆连接两台计算机,升级后这部分电缆没有变动,由于离新增加的交换机比较近,故将备份服务器接入了并用电缆。备份服务器平时虽然基本不用,但连接脉冲仍然会对计费服务器造成干扰,只是干扰量很少而已,这就是我们在交换机链路中观察到2%碰撞率记录的产生原因。由于该电缆的综合近端串扰PSNEXT不合格,数据备份服务器在工作时对计费服务器会产生很大干扰,破坏传输数据,使得同一个数据包不得不多次重传和多次重新处理,真实流量急剧上升到68%,重处理流量由0%上升到6.98%。由于服务器使用的是价格便宜的工作组交换机,所以网管系统无法从交换机端口发现链路中存在的严重问题。

升级前业务偶然有中断的现象,这也是由于并用线缆串扰造成的,由于当时是10Base-T网络,速度低,所以这种影响比较小,往往只是偶尔且是瞬间的影响。

[诊断建议]在10Base-T以太网中存在着大量的非标准化布线以及大量不合格的布线链路,由于10Base-T网络工作速度低,这些严重质量问题往往被掩盖起来。直到升级到100Base-Tx 以太网后这些问题才会明显地暴露出来。10Base-T网络布线系统中表现不明显的问题同时也给集成商、工程商和广大用户造成一种错觉,认为布线系统只要是物理上联通的就不会有问题,从而忽视了影响链路质量的布线产品品质问题、施工工艺问题对网络造成的严重影响。建议网络设计者首先采用标准化的设计方案,且只有工程商和用户在签订建造网络的合同时选用标准化的施工工艺和标准化的现场认证测试方案,才能初步保证综合布线系统的质量。《网络测试和维护方案》中一般建议每年(必要时每半年)对布线系统轮测一遍,以保证布线系统的性能合格,排除因布局变动、用户数量增删和人为调整等原因对布线系统造成的损害。另外,网络的业务工作和故障情况要有比较准确完整的记录,这样才能有助于故障的查找。如果“病人”对自己网络的业务流程比较熟悉,则可以避免动用众多人员加班配合排除故障。[后记]一周后电话回访该“病人”,得知已经全部将并用链路更换为单独的合格链路,计费网络工作非常良好,手机用户再没有“交费难”的抱怨了。

[故事之十二]电梯动力线干扰,占用带宽,整个楼层速度降低

[症状]某大型家电制造企业计算机中心主任,今天极其沮丧地了报告了该公司的一起顽固的网络故障。该故障表现虽奇特但比较有规律,具体表现是:公司主办公楼的网络在员工上班的时候运行速度会变得很慢,下班后速度回升,有时基本上能回复到往常水平。故障时间大约三个月,准确“发病”的日期已无从记起。每天上午8:00左右开始发作,症状范围是三楼的整个楼层,现象是速度突然变慢,无论是从互联网上下载文件、收发电子邮件都很慢且经常中断和出错。本楼层中的用户之间在传输文件时、与其它楼层的用户传送文件时或是其它楼层的用户与本楼层的用户交换文件时都要用很长时间,但其它楼层的用户之间互相交换文件则不受影响。第一此发作,故障一直持续了三天我们也没有查明原因。由于三楼是公司设计开发部门,每日都要使用网络环境进行大量的数据交换、资料查询等工作,为了不影响新产品开发进度,当时将研发部的工作时间暂时推迟到下午6:00上班。两周后情况仍未见好转,故障仍然存在。不得以公司决定将研发部与二楼的行政管理部门临时对调,以保证已经开始习惯于上“夜班”研发部员工正常的作息时间。谁知一“临时”就是三个月之久。网管人员将布线系统、网络平台、所有主机和服务器、路由器都彻底检查或互换过,一直未能查出故障琐在。听某知名系统集成商介绍可能是电缆系统的问题,随即将布线系统进行了一次认证测试。结果还真的查出了不少严重问题。比如,原来的5类线系统全部不合格,系采用假冒伪劣的5类线,现场测试只能通过三类线指标。为正宗的“假货”。接插件和模块也大部分不能通过5类线标准测试。进一步对整个大楼的布线进行检查,发现与三楼的情况相同。公司网络基本上还是10Mbps系统,工作一直正常。由于布线工程是三年前做的,现在已经无法联系上当时的系统集成商。公司董事会责成计算机中心将整个布线系统全部更新。经过一个月的紧张施工,工程于前天结束,满心希望通过这次工程能将原有的故障及隐患彻底清理干净,谁曾想,昨天开机调试系统时发现原来的故障依然“顽强”地存在!虽想尽了办法,面对我们的艰苦努力,第三楼层的网络系统仍“无动于衷”。计算机中心的全体员工均感倍受打击,且愧于无法向研发部的员工和董事会“交差”。

[诊断过程]根据以往的统计,越是顽固的故障对“网络医院”来说往往越可能是最简单的“病因”引起的。从“病人”“主述”的情况看,布线系统还存在问题的可能性不大。由于网络的设备都经过多次的检查,发生问题的概率应该是比较低的。如果说是网络有关平台安装、应用软件安装和使用以及路由通道等方面的有问题,那么其它楼层的用户应该有类似的问题。分

析故障出现的特点,由于故障出现的时间是上班时间,所以故障原因应该与某些定时工作的设备或工作环境有很大关联性。故障造成整个楼层速度受影响,为公共部分故障的概率较高。根据计算机中心主任介绍,包括其它楼层在内的每台设备都进行过逐个关机筛选检查,每台供电设备都进行过替代检查,所以可以保证设备都是正常且合格的。

分析网络的拓扑结构,每个楼层都是用集线器搭建的10Base-T传统网络。各楼层以及邻近大楼的网络用户之间用一台故障前添置的核心交换机连接起来,端口为10Mbps,路由器与核心交换机经过128k帧中继链路与Internet连接,其它分部及分公司则用DDN和ISDN、VPN连接。在计算机中心设有一台网管机,但没有配置其它维护工具。由于故障只影响一个楼层,很可能是在一个碰撞域内的问题。因公司网络与Internet相连,所以我们从网络医院对该公司的网络先简单地做一下远程诊断。启动网络测试仪F683的便携网管功能,由该中心主任输入其公司路由器密码后,查看路由器和交换机的端口管理信息库,结果发现交换机上与三楼连接的接口存在大量碰撞和错误帧记录。数据如下:流量2%,错误为35%,其中CRC错误占83%,传输延迟96%,碰撞10%。中心主任说从网管机上也看到过类似的数据,只是不清楚其含义,也不知道这些数据会与故障诊断有关(网管机从来不用)!我们需要确定这些数据的具体来源,故第二天抵达现场进行测试。

将网络测试仪F683接入三楼网络观察,显示网络流量在67%~95之间摆动,错误的流量则在60%~90%之间摆动。其中多数为Ghost错误,占错误流量的77%,其次为碰撞和FCS 帧错误,合计占23%。Ghosts错误(幻象干扰)一般指示网络存在严重的干扰。由于干扰比特没有以太网的帧结构特征,在碰撞域内又可以随处游荡,所以这类故障在没有测试工具的条件下一般很难进行诊断。

用F43电力谐波分析仪测试供电质量,谐波含量指标较大,但未超标,说明电力质量尚可。用场强计测试970MHz以内的空间电场强度,合格。那么干扰信号是从何处进入网络的呢?一般可以用如下方法检查:检查接地系统,检查设备接地,检查周边大型用电设备,检查无线通信环境,采用“二分法”断电检查串入位置。从故障的特点看,为定期定时故障发生,所以与周边大型用电设备的关系比较大。由于是办公楼,大型用电设备一般以空调、电梯和照明系统等为主,故决定先将电梯、空调等供电系统切断。当切断电梯电源时,故障消失。重新接通电梯电源,故障重现。说明接地或布线系统串如了电梯动力强干扰谐波。检查三楼布线系统,发现一台饮水机的用电电源与布线系统走线槽在一起。立即测试饮水机电源,发现大量高强度干扰谐波,请电工从配电室切断这条电缆,故障消失。

[诊断评点]故障原因是电梯动力干扰经过新散装的饮水机电源线传递到网络布线系统,致使网络中的干扰比特流量占很大数值,争用网络有效带宽,破坏网络正在传输的有效数据(表现为大量的FCS帧错误),使得网络速度大大下降,网络“垃圾”骤增。由于电梯在上下班时间一直有人使用,所以网络工作也“定期”受到严重干扰。下班后,电梯运行频次降低,干扰减少,网络逐步回复到正常运行速度。

以下是电工和研发部员工的回忆。

原来,为了改善工作环境,公司于三个月前为每个部门和科室配备了冷热饮水机。由于三楼休息室电源插座无电,电工检查后发现该插座的电缆没有与配电盘相连(建筑施工时遗留问题),于是随意将其联线的远端连接到电梯供电动力线的配电盘上为饮水机供电。当时正值炎夏,员工们本来好不开心,心想从此可以随意冷热饮“自助”,没料想却是从此恶梦不断,网络工作异常,严重影响到了他们的正常工作和生活。

没有人记得这条供电电缆与布线系统安装在了同一个线槽内,并与三楼布线系统穿入同一根PVC管内。本来,有一次机会可以解决故障,那就是如果在这次网络更新工程时能严格地按标准化施工,那么这根电源线将会被分开安装,更新后的网络便可能正常运行。另外,由于有多根网线同时受到干扰,所以在采用“二分法”分割故障区域时只能得出干扰与设备数量

有关系这一模糊结论,此非但不能有助于定位真正的故障部位,反而可能将故障诊断工作复杂化。

[诊断建议]标准化设计、标准化施工、标准化验收(认证测试)是保证网络工程质量的重要手段和方法。其中一条就是要求动力线和计算机网络布线系统必须分开走线。如果采用金属穿管的方法近距离屏蔽,则金属管必须要有良好的接地措施。否则极易获得“得不偿失”的回报。测试统计显示,现阶段并不是所有动力线谐波含量都很大,多数动力线谐波含量还是很小的。但用电环境的变化趋势是非线性用电设备的用量越来越多,谐波污染也会越来越严重,且呈加速趋势。为了避免后患,还是少存侥幸心理为妙。

[后记]一周后电话回访用户,得知经过检查,还发现其它楼层的布线系统也存在电缆线与布线系统同槽敷设的情况,该电缆上谐波污染可能比较小,没有造成严重的网络“不良反映”。现在已经全部更改,并计划对其它相关建筑的布线也进行一次全面检查。

[故事之十三]“水漫金山”,始发现用错光纤接头类型,网络不能联通

[症状]某新落成的甲级办公大厦,按智能大厦标准设计,其中的计算机综合布线系统包括用超5类线和多模光纤组成的水平及垂直布线系统。全部电缆系统都经过了严格地选用的超5类线现场认证标准进行的验收测试和检验,现正在一边招商一边调试网络及通信系统。智能控制系统的多数信道均采用IP协议,并将原设计的各自独立的17个分系统的控制平台重新设计和整合为同一个快速100Base-Tx以太网,这样大大压缩了网络系统的造价。今天该大厦工程的布线集成商向网络医院求诊,报告其66层的网络联络中断,无法调通,而以前一直工作正常。故障开始于前天上午,第66层的网络系统用户无法与其它楼层的用户联系,也无法通过大厦的帧中继专线与互联网联接。第66层通过一对200米的多模光纤链路与2楼的网络监控中心联接,经过检查发现设在40层的光缆转接箱内的接头被上层楼面的溢水事故所污染,工程人员临时改变光缆走向,将光缆用一段跳线从另一弱电井中绕道联入,采取这样的措施后只增加了约30米的光缆长度和一个光接头。根据估算应该可以联通。原先被污染的光缆接头也已经更换,但网络仍然无法实现联接。

[诊断过程]从故障统计的规律看,一般在网络维护的过程中,维护人员动过或更改过的地方故障出现的概率比较高,此即所谓“动哪儿查哪儿”的故障诊断顺序第一原则。根据报告的故障情况初步判断光缆出问题的可能性比较大,当然也不排除网络设备的问题,比如光卡、交换机等同时出现故障的可能性(今天的检查过程中维护人员也插拔并检查过光卡)。20分钟后,我们抵达目的地,我们将网络测试仪接入2楼网络中心,检查网络工作状态,正常,只是无法发现66楼的用户。电话询问66楼用户,回答说平时虽然能联通,但也不是十分通畅。有时速度会很慢,偶尔还会出现连接中断的现象。我们将电缆测试仪换上多模光纤测试模块,主机移动到66楼,远端机留在2楼对这对光缆链路进行测试。A光缆测试衰减值为3.7dB,B光缆衰减为7.8分贝,虽然B光缆的衰减相当大,但因为还在一般光卡允许的接收灵敏度范围之内,应该不会影响光卡的信号接收,除非光卡正好也有灵敏度方面的问题。为了简化诊断程序,我们用邻近的光卡做替换试验,将2楼和66楼的光卡同时更换,然后从66楼用网络故障一点通(One Touch)接入网络进行测试,结果是可以发现本楼层

的用户,但还是无法找到其它楼层的任何用户。这说明故障仍然在光缆链路,或者是交换机的光卡接口有问题。为了确认故障的准确地点,我们从另一弱电井倒换出一对光缆代替这对光缆,并用跳线将原来的光卡连接起来,当光卡插入交换机后网络立即恢复正常。这说明交换机及其光卡和光卡接口是正常的。重点还是要检查这对光缆链路。重新测试的结果与上此测试的结果基本一致,我们将测试方向颠倒一下再度进行测试,结果发现B光缆的衰减量为27dB,A光缆仍然为3.7dB。继续对B光缆进行分段测试,44楼以下的一段光缆测试结果为2.3dB,基本可用。跳线衰减量测试1.28dB,基本可用。44楼和66楼之间的光缆测试

衰减为20dB,严重超差。说明这条链路有比较严重的问题。

拧下44楼的光卡接头,用放大镜仔细观察,光缆芯线直径圆润,与其它接头并无二至。随后检查66楼光缆接头,发现其芯线直径比其它接头的芯线直径要小许多。可以判定,此接头很可能为单模光缆接头。将这对光纤的接收和发射位置对调使用,插入光卡后网络恢复正常工作。

[诊断评点]光缆链路在标准化的认证测试过程中按要求进行双向测试,本大厦的光缆布线系统全都只做了单向测试。当遇有光纤直径不匹配、光纤气泡或接头质量差等情况时,光纤在两个方向上的衰减量会有差异。一般来讲,差异不会超过10%。此次故障的光纤双向测试衰减量差值达20dB,故怀疑光纤直径存在严重的不匹配,且出现在接头处的可能性最大,所以我们对44楼和66楼之间的光卡接头进行检查。结果发现了误用的单模光纤接头。单模光纤的芯线直径为9微米左右,对1310微米和1550微米的单模激光衰减量较小。多模光纤芯线直径为62.5微米左右,在计算机网络中多用于850微米的多模光信号传输。单模光纤链路和多模光纤链路由于传输的光模式、优势波长和衰减机理完全不同,不可以混用。本故障的接头当从正向测试B链路的衰减量时,由于单模光纤一端与多模光纤熔接,不少多模光能量仍可以进入单模光纤,并从接头处的小直径处(单模9微米)全部射入大直径(多模62.5微米)的多模光卡的光接头内,表现为衰减量比正常链路大(实测为7.8dB),但信号基本可用。当从逆向进行测试时,大直径的多模光能量在接头处被小接头的单模光纤大部分阻断,表现为逆向衰减量很大,实测值为27dB。由于光卡的接收灵敏度较高,衰减余量大,故“水漫金山”事件之前,光卡接收到的信号能量处在光卡灵敏度的边缘,逆向信号勉强可以使用,此时的网络表现不稳定,有时速度很慢,有时偶尔中断(受气温和空气压力的波动影响)。“水漫金山”事件后,由于在重新处理链路时增加了一段30米长的跳线和一个光接头,致使光卡的接收能量超出边缘值,网络连接因此中断。

多模光卡都是成对单向使用光纤,即光卡发射用一根光纤,接收用另一根光纤,所以当对调接收和发射的光纤时,光卡接收和发射的信号都利用了单向衰减量小的方向,接收到的光信号能量较强,网络可以恢复正常运行。

本故障如果利用光时域反射计(OTDR)可以直接从仪器的屏幕上观察到回波曲线的不连续状态,有经验的测试者一般可以立即判定是链路混用的问题。

[诊断建议]首先,尽快更换误用的单模接头。第二,根据标准化施工施工和验收要求对所有光纤链路都要进行双向测试。第三,我们发现该大厦的设计图纸上无光纤链路的衰减量计算值标注,只标注了光纤的设计长度。由于实测的光纤衰减量无论是表现正常的链路或是不正常的链路其结果都比设计值偏高,估计存在使用劣质光纤和劣质接头的情况,且不排除用多段零碎光纤拼接链路的可能性。所以建议业主要求集成商检查所有实际的接头和熔接头数量。

[后记]五天后用户来电报告:他们测试了大部分的光缆链路,实际测试的光纤衰减值(扣除接头损耗后)基本符合标准,没有发现零碎拼接的情况。但所用的连接器和接头则绝大部分都不符合标准要求,为伪劣产品。好在接头的更换比较容易,不至于严重影响已有网络用户使用,损失也相对较小,计划全部更换之。

[故事之十四]千兆网升级工程,主服务器不可用,自制跳线RL参数不合格

[症状]某知名的大型电信产品开发商,最近对网络进行了升级,其负责通信及计算机网络的IT经理Grace小姐今天向网络医院报告,有数台新安装的服务器基本不能用,其它服务器也偶尔存在数据出错和访问速度停顿的问题,有的明显,有的则不太明显。在网络用户少时,对服务器进行Ping测试一般都能通过,但用户数量稍微增加时则有10%~30%的Ping测试损失。这几台服务器即使在用户数量很少时,也不能很好地登录和访问。奇怪的是,登录过

程有时候很顺利,有时候则根本无法登录,等待时间最高能达到5分钟,方能进入。

骨干网原计划用A TM架构,后更改设计为千兆以太网交换机作骨干交换机。公司总部所在大厦内的用户近3000个,楼高28层,每层用一台千兆以太网交换机作为核心交换机,下面则只设一级100兆工作组交换机,然后直接100兆交换到桌面。服务器安装的都是千兆以太网卡,直接与各层分布的千兆以太网交换机相连。网络维护人员对服务器工作平台进行了多次彻底地检查,并重新安装了工作平台,但现象依旧。经人指点,曾经怀疑是电缆问题,遂对相关的服务器连接电缆全部用Fluke公司的DSP100电缆测试仪进行了测试,结果都合格。试着更换部分电缆,无效。观察这几台服务器,多数时候访问流量不足1%。不知道何故?[诊断过程]服务器访问受阻,而且是同时有几台受阻,这其中的故障原因必定有某些共性存在。Grace告知,本次新安装的服务器共有17台,其中7台有明显问题,另10台大致正常。负责安装的是同一个人,由公司资深网络工程师潘先生直接执行,应该不存在由于安装上的差异而导致部分可用部分不可用的问题。

我们将网络测试仪接入用户端对网络工作状态进行初步了解。观察有明显连接问题的7台服务器与交换机的连接端口,发现流量均低于1%,但延迟数据包的比例很高,占86%~93%左右,错误的FCS帧比例也不低,约为5%~11%左右。这说明确实有大量的数据包指向了服务器而服务器却没有理会。另外的5%~11%的FCS错误数据包则可能来自服务器。对准服务器做ICMP Ping测试,损失约为90%~100%之间。以上故障提示电缆问题和电缆与服务器、交换机的接口物理性能有问题。用DSP-4000电缆分析仪测试服务器与交换机之间的硬跳线,7台有问题的服务器均显示回波损耗RL(Return Loss)参数不合格!继续测试另10台服务器与交换机的跳线,其回波损耗RL参数也全部不合格!用电缆分析仪定位的RL不合格点就在跳线电缆的端头处。故重新制作接头并测试,仍不合格。换用我们随身携带的软跳线接入一台服务器,服务器工作立刻恢复正常。看来确实是跳线电缆的问题。用我们提供的合格接头重新制作一段跳线,测试还是不合格。由此可知,问题出在跳线材料上。我们将随身携带的仅有的4根软跳线接入其中4台服务器中,这4台服务器全部恢复正常。用DSP4000选择五类线测试标准对电缆进行测试,全部合格。查看电缆外包皮则为Cat5e。[诊断评点]我们知道,电缆内有4对双绞线,在千兆以太网链路中,由于采用是4对线全双工5电平编码工作方式,每对负担250Mbps的双向数据流量,实际的信号等效物理带宽为100MHz,也就是说,五类线就基本可以满足千兆以太网的链路要求。实际使用当中则不然,千兆以太网对其它参数的要求更高,故一般建议使用超五类线承载千兆以太网应用。五类线则一般限于100兆以太网和A TM155等以内的速率应用。如果打算用五类线运行千兆以太网,则必须增加几项测试参数。Grace介绍他们采用的是超五类电缆,但经过DSP4000电缆分析仪实地认证测试证明只是五类电缆而已,也就是说Grace采用的是用五类线仿冒的超五类线。改用Cat5n标准测试,仍然不合格。这表明他们选用的五类线芯的品质本身也比较差,不能通过五类线的千兆应用标准Cat5n测试。这是因为,正规厂商提供的五类线在增加的千兆应用Cat5n标准测试中,不合格的产品比例一般都不会超过20%。

DSP100电缆测试仪只能测试五类线,所以测试结果全部合格。但工程设计采用的是超五类线,所以该仿冒的超五类线经DSP4000电缆分析仪测试被判为不合格。

4台不合格的跳线,长度均在2米以内,而另10台工作不良的服务器,与交换机的连接长度均在15米以上。这也是回波损耗RL不合格的典型表现:

即在RL不合格的链路中,电缆越短故障症状越严重。

这是因为,RL不合格将会导致信号反射增加,短链路的衰减量小,所以,反射的能量大多数会在链路的另一段在此反射从而叠加到中常的数据信号之中,造成信号的大量畸变,反映为错误的FCS帧,另一方面,访问服务器的流量由于无法正常传递到服务器,反映到交换机则是大量的延迟帧累积。在较长的不合格RL链路中,由于信号的衰减较大,多数反射能

量不能有效地叠加到正常信号之上,所以故障症状会轻一些,表现为错误较高或间歇性的停顿,尤其是流量高时错误帧较高,停顿频繁,但一般不会全部数据包都通不过链路。用户登录网络时受当时的平均流量和瞬间流量影响都很大,表现为登录时间的大幅度摆动,有时会比较顺利,因为此时的瞬间流量和平均流量都低,有时则表现为长时间等待,此时的平均流量或瞬间流量高,错误操作和重复操作大量出现。

[诊断建议]鉴于Grace采用的电缆为仿冒的超五类线,加之其它服务器也偶尔有数据错误和停顿的表现,故建议她将所有的服务器超五类链路重新进行检查,以确保网络的工作质量。[后记]第二天Grace电话告知,他们当天共抽测了包括全部服务器链路在内的200条链路,其中工程前期敷设的电缆基本上合格,后期敷设的电缆都不合格。后期的电缆数量约站40%,显然是工程施工中出了问题。他们将在近期内将链路全部测试一遍,以便确定到底有多少链路存在品质问题。粗略估计,重新返工敷设这些电缆至少也要耗费200万以上。

[故事之十五]用错链路器件,超五类线系统工程验收,合格率仅76%

[症状]某著名系统集成商今天来电反映严重质量问题,其主代理的某更加著名的电缆生产商的超五类电缆产品用于一项15000点的样板工程,布线系统每条电缆链路已经经过严格的现场认证测试,全部合格。正准备安排工程款结算,但一周前业主突然提出,工程商的现场认证测试报告有问题,工程款项暂停给付。理由是:测试报告上的电缆标准与选用的电缆类型不一致。集成商重新查验了工程商的全部测试报告,认为参数没有问题。测试报告上选用的是北美五类线测试标准。业主认为必须选用相应的超五类线标准进行认证测试,才算有效。集成商遂责成工程商重新选用超五类线标准进行现场认证测试,结果约有9%的链路不合格,15%的参数告警。

该工程由集成商总包,布线工程由另一家工程商负责施工。

[诊断过程]我们应邀立即赶往现场,随机抽取了100条链路进行测试,结果与工程商重新测试的结果基本一致,这应该是一起严重的质量事件。从抽测的参数结果统计分析,基本上是综合近端串扰PSNEXT、综合衰减串扰比PSACR和回波损耗RL三项参数不合格,最大超差分别是-1.5dB、

-1.0dB和-2.8dB,占9%,15%的参数在标准规定的边沿附近波动。由于波动范围在仪器的误差限以

内,所以测试参数显示为告警。启动DSP-4000电缆分析仪的自动诊断功能,仪器显示“故障”点在被测试链路的接头位置,即水平电缆的两端。仪器提示“检查接头或更换接头”。用随身携带的超五类接头/座更换之,重新测试仪器显示“PASS”。用工程商提供的连接模块连续更换了三条不合格的链路接头,然后进行验证测试,结果三条链路有两条不合格,而其中一条由原来的不合格转为合格。这说明,工程商选用的超五类电缆并未配用超五类连接模块,而是五类模块。工程商提供的数据是,电缆全部采用超五类线,接头“可能”采用的是五类线,准确信息不明。

[诊断评点]一般来讲,标准规定的五类线现场测试标准应该用在五类线系统的认证测试中而不能用于超五类布线系统中。许多工程商在进行超五类线工程认证测试是都选用五类线认证测试标准,理由之一是:超五类线国际标准在工程施工时还未出台,只有部分草案和建议,而厂商声称其产品的实际参数均超过即将出台的超五类线标准,所以只要不是施工工艺上的明显问题,链路参数都会合格;理由之二是:实际执行的测试程序在一段时间内大多数工程商都是事实上选用五类系统现场认证测试标准进行测试。因此本工程在上述背景下也无例外地选用了五类线标准进行现场认证测试。在与用户签订的验收测试程序中不指明使用何种具体标准进行现场认证测试。本项工程结束后,用户在验收全部合格后才“偶然”发现检测报告的标准是北美五类线标准,与选用的超五类线的电缆系统不相符,遂提出异议,并要求工程

最全的网络故障案例分析及解决方案

第一部:网络经脉篇2 [故事之一]三类线仿冒5类线,加上网卡出错,升级后比升级前速度反而慢2 [故事之二]UPS电源滤波质量下降,接地通路故障,谐波大量涌入系统,导致网络变慢、数据出错4 [故事之三]光纤链路造侵蚀损坏6 [故事之四]水晶头损坏引起大型网络故障7 [故事之五] 雏菊链效应引起得网络不能进行数据交换9 [故事之六]网线制作不标准,引起干扰,发生错误11 [故事之七]插头故障13 [故事之八]5类线Cat5勉强运行千兆以太网15 [故事之九]电缆超长,LAN可用,WAN不可用17 [故事之十]线缆连接错误,误用3类插头,致使网络升级到100BaseTX网络后无法上网18 [故事之十一]网线共用,升级100Mbps后干扰服务器21 [故事之十二]电梯动力线干扰,占用带宽,整个楼层速度降低24 [故事之十三]“水漫金山”,始发现用错光纤接头类型,网络不能联通27 [故事之十四]千兆网升级工程,主服务器不可用,自制跳线RL参数不合格29 [故事之十五]用错链路器件,超五类线系统工程验收,合格率仅76%32 [故事之十六]六类线作跳线,打线错误造成100M链路高额碰撞,速度缓慢,验收余量达不到合同规定的40%;34 [故事之十七]六类线工艺要求高,一次验收合格率仅80%36 第二部:网络脏腑篇39 [故事之一] 服务器网卡损坏引起广播风暴39 [故事之二]交换机软故障:电路板接触不良41 [故事之三]防火墙设置错误,合法用户进入受限44 [故事之四]路由器工作不稳定,自生垃圾太多,通道受阻47 [故事之五]PC机开关电源故障,导致网卡工作不正常,干扰系统运行49 [故事之六]私自运行Proxy发生冲突,服务器响应速度“变慢”,网虫太“勤快” 52 [故事之七]供电质量差,路由器工作不稳定,造成路由漂移和备份路由器拥塞54 [故事之八]中心DNS服务器主板“失常”,占用带宽资源并攻击其它子网的服务器57 [故事之九]网卡故障,用户变“狂人”,网络运行速度变慢60 [故事之十]PC机网卡故障,攻击服务器,速度下降62 [故事之十一]多协议使用,设置不良,服务器超流量工作65 [故事之十二]交换机设置不良,加之雏菊链效应和接头问题,100M升级失败67 [故事之十三]交换机端口低效,不能全部识别数据包,访问速度慢70 [故事之十四]服务器、交换机、工作站工作状态不匹配,访问速度慢72 第三部:网络免疫篇75 [故事之一]网络黑客程序激活,内部服务器攻击路由器,封闭网络75 [故事之二]局域网最常见十大错误及解决(转载)78 [故事之三] 浅谈局域网故障排除81 网络医院的故事 时间:2003/04/24 10:03am来源:sliuy0 整理人:蓝天(QQ:) [引言]网络正以空前的速度走进我们每个人的生活。网络的规模越来越大,结构越来越复杂,新的设备越来越多。一个正常工作的网络给人们带来方便和快捷是不言而喻的,但一个带病

典型的网络故障分析、检测与排除

典型的网络故障分析、检测与排除 摘要: 网络故障极为普遍,故障种类也十分繁杂。如果把网络故障的常见故障进行归类查找,那么无疑能够迅速而准确的查找故障根源,解决网络故障。文章主要就网络常见故障的分类诊断及排除进行了阐述。根据网络故障的性质把网络故障分为物理故障与逻辑故障。其物理故障也就是网络设备的故障。其逻辑故障是网络中配置管理的错误。也可根据网络故障的对象把网络故障分为线路故障、路由故障和主机故障。本文主要介绍路由器故障、配置故障、及连接故障的诊断与排除。通过运用工具和方法分析出导致网络故障的主要原因,及解决方法。 关键词:计算机网络,网络故障,分析诊断,物理类故障,逻辑类故障 引言 计算机网络故障是与网络畅通相对应的一个概念,计算机网络故障主要是指计算机无法实现联网或者无法实现全部联网。引起计算机网络故障的因素多种多样但总的来说可以分为物理故障与逻辑故障,或硬件故障与软件故障。采取有效的故障防预措施网络故障目前已经成为影响计算机网络使用稳定性的重要因素之一,加强对计算机网络故障的分析和网络维护已经成为网络用户经常性的工作之一。及时进行网络故障分析和网络维护也已经成为保障网络稳定性的重要方式方法。本文从实际出发,即工作中遇到的网络故障,描述了通过运用网络知识进行故障排除。按照故障现象—>故障分析-->故障解决的研究路线阐述了如何在实际中排除网络故障,及其在网络安全的应用中的重要性。 本文着重讲解了网络故障的排除方法,通过运用解决问题的策略与排除故障的思路在故障现场很快的检测出是属于哪种故障然后再基于故障提出方案给予解决。 正文: 一、网络故障 (一)物理类故障 物理故障,是指设备或线路损坏、插头松动、线路受到严重电磁干扰等情况。比如说,网络中某条线路突然中断,这时网络管理人员从监控界面上发现

配电网故障预控措施及典型案例分析

配电网故障预控措施及典型案例分析 发表时间:2016-11-04T15:05:20.767Z 来源:《电力设备》2016年第15期作者:章勇王浩张彬彬 [导读] 笔者配网故障防范措施入手进行阐述,再通过本单位出现的典型故障案例进行分析,并提出相关整改措施及事件启示。 (国网江苏省电力公司徐州供电公司江苏徐州 221005) 摘要:随着配电电网建设发展,提高供电可靠率、减少配电网故障是一个系统工程,不仅要加强配电网络的运行维护与管理,加强配电网络的建设,还需要加大对故障情况的分析,要从多方面努力才能取得实效。供电企业在进一步提高配电网络的供电可靠性和运行经济性、为广大用户提供优质服务的同时,也为企业带来更大的社会效益和经济效益。保障配网设备的安全稳定运行,减少设备故障的发生。笔者配网故障防范措施入手进行阐述,再通过本单位出现的典型故障案例进行分析,并提出相关整改措施及事件启示。 关键词:配电网,运行,供电可靠性,故障,异常 0 引言 提高供电可靠性、减少配电网故障率,是配电运检专业一项重要基础工作和综合性很强的生产工作,需要从配电网自动化管理作为抓手,针对造成配网故障的主要影响因素,了解故障根源,采取可靠的10kV配电网的预控故障管理措施,才能将各类故障异常遏制。配电网故障的原因气候环境有较大关联,其诱因最终导致的是配网设备故障,发展至事故,首先应对配电网气候环境、设备负荷及人员管理等因素采取相应预控措施。 1 配电网故障原因分析及预控措施 1社会环境造成配网故障的主要方面 社会经济高速发展带来了楼宇建设、交通繁忙,对线路通道造成一定安全隐患,车辆碰撞杆塔导致线路故障的情况时有发生,尤其在夜间或施工场所。基建施工场所对配电网的破坏也是有发生,主要表现在以下方面:①施工机械、物料超高超长碰触带电部位或破坏杆塔;②基面开挖伤及地下敷设电缆;③修路、建房、烧砖等取用土时,对架设在田间地头电杆地段进行取土,破坏了电杆基础,造成电杆倾斜倒塌。 2社会环境因素采取的预控措施 针对道路交通造成的隐患,采取的措施非常必要,一般建议采用反光漆作为方法措施之一,离地面20cm起往上粉刷杆塔,黄黑颜色相间,各3道,色带高度为20cm则可。对屡屡遭受碰撞的杆塔,可在来车前方1m处设置防撞混凝土墩,并刷上类似的反光漆并在拉线上套上带反光标示的护筒;或迁移该类杆塔。 针对施工现场的反故障措施主要有以下几个方面:加大宣传力度,利用各种传媒长期、广泛宣传保护电力设施的重要性,解释破坏电力设施所带来的严重后果以及肇事者应负的责任;有开挖可能的地下线路,适当设置警示牌,增加巡视的次数。 3气候环境造成配网故障的主要方面 根据多年来的配网运行管理经验,耐张点的悬式绝缘子在雷击时极少发生闪络故障,故障发生点集中在针式绝缘子上,应进一步提高针式绝缘子的耐雷水平有助于提高线路的防雷能力。 在配电架空线路抗击冰冻方面,加强线路的抗倾覆能力是关键。大雪会造成线路积雪增加导线荷载,当气温下降到一定程度时,伴随着雪雨水还会在导线上形成覆冰,从而引起导线弧垂增加,受力增大造成到杆断线故障。 2气候环境因素采取的预控措施 针对雷击事故,应提高绝缘子的耐雷水平,特别是针式绝缘子的耐雷水平。安装线路避雷器,部分特殊线路段加装避雷线。提高绝缘子的绝缘等级,只是其中一个方面,还不足以保障线路在遭受雷击后能安全运行,配套措施是增加泄雷通道,而安装线路避雷器则是一个经济、简单、有效的措施。线路避雷器安装地点的确定原则是尽量安装在周围无高层建筑物、地方开阔的线路段上,尤其是雷击多发区周围有高层建筑物屏蔽雷电的线路段可不用考虑安装,以节省投资。雷电高发区的确定可参考气象部门已确定的雷区分布图另一方面可借助雷电信息定位系统的统计数据核实线路是否处于雷击多发区。 10kV线路避雷器建议选用带金属氧化物避雷器的复合绝缘子。定期检测接地网,确保接地网的接地阻值合格。确保了足够数量的泄雷通道后还应保证泄雷通道畅通无阻,而合格的接地网是保障泄雷通道畅通的一个关键原因。定期进行接地网的阻值检测期,对阻值不合格的接地网,视运行时间和实际检测的阻值情况,可分别采用重新构造接地网或增打地极的方法处理。 针对冰雪灾害天气,建议在积雪结冰或风口地段尽量减少档距和多采用耐张段,拉线设置合理,拉盘合格,尽量防止故障进一步扩大。必要时采用人工除冰的办法,尽量减少损失。 5针对设备陈旧及负荷采取的预控措施 对于重载配电网线路和公用台区应每月开展负荷监测工作。对于长期稳定过负荷的馈线建议采取预警制度,及时制定整改方案转接负荷;对于柱上断路器、跌落式熔断器、阀式避雷器、针式绝缘子、高损配变、高低压配电柜、并沟线夹等早期投运的残旧设备,应选用技术参数高的现行产品结合全年的停电计划安排轮换工作。 6针对针对运行管理方面采取的预控措施 在运行管理方面,应着重抓好巡视维护及消缺两项工作。巡视维护方面应针对不同的天气、季节特点,每月度制定巡视计划,落实责任人,确保巡视到位。巡查发现的缺陷或隐患应设专人进行分析归类,按先急后缓、是否需要停电等的条件制定计划,落实消缺工作。同时应根据单位实际清况,建立健全考核激励机制,对每条线路应独立建立档案,分线分杆进行登记,将线路运行情况、巡查记录、设备缺陷、危险点、特殊区域或地段、消缺等全面录入生产系统,作为月度绩效考核的主要依据。 2 一起配电网故障的案例分析 配电网运行管理人员,应对管理制度的执行方面,加强对典型配电故障对分析,提出改进的措施。下面一起配网断路器渗水的设备故障进行分析,并提出相关措施及事件启示。

【干货】典型网络故障案例及处理思路

【干货】典型网络故障案例及处理思路 很多朋友经常提到网络故障,其中在交换机组网时常见的故障比较多。为了便于大家排除这些故障,在此介绍一些常见的典型故障案例及处理思路。 故障1:交换机刚加电时网络无法通信 故障现象 交换机刚刚开启的时候无法连接至其他网络,需要等待一段时间才可以。另外,需要使用一段时间之后,访问其他计算机的速度才快,如果有一段时间不使用网络,再访问的时候速度又会慢下来。 故障分析 由于这台交换机是一台可网管交换机,为了避免网络中存在拓扑环,从而导致网络瘫痪,可网管交换机在默认情况下都启用生成树协议。这样即使网络中存在环路,也会只保留一条路径,而自动切断其他链路。所以,当交换机在加电启动的时候,各端口需要依次进入监听、学习和转发状态,这个过程大约需要3~5分钟时间。

如果需要迅速启动交换机,可以在直接连接到计算机的端口上启动“PortFast”,使得该端口立即并且永久转换至转发状态,这样设备可以立即连接到网络,避免端口由监听和学习状态向转发状态过渡而必须的等待时间。 故障解决 如果需要在交换机加电之后迅速实现数据转发,可以禁用扩展树协议,或者将端口设置为PortFast模式。不过需要注意的是,这两种方法虽然省略了端口检测过程,但是一旦网络设备之间产生拓扑环,将导致网络通信瘫痪。 故障2:5口交换机只能使用4口 故障现象 办公室中有4台计算机,但是只有一个信息插座,于是配置了一台5口(其中一口为UpLink端口)交换机。原以为4台计算机刚好与4个接口连接,1个UpLink端口用于连接到局域网,但是接入到网络之后,与UpLink端口相邻的1号口无法正常使用。 故障分析 UpLink 端口不能被看作是一个单独的端口,这是因为它与相邻端口其实就是一个端口,只是适用的连接对象不同而已。借助UpLink端口,集线设备可以使

常见网络故障的分析及排除方法

常见网络故障的分析及排除方法 【摘要】计算机网络是一个复杂的综合系统,网络故障十分普遍,故障种类也极其繁杂。本文在对具体的网络故障分析基础上,给出了相应的排除方法。 【关键词】网络故障;常见故障;分类诊断;物理故障;逻辑故障 一、网络故障的分类 网络故障的成因无非是硬件和软件两个方面。按照网络故障的性质,网络故障可划分为物理故障与逻辑故障两类。物理故障也叫硬件故障,是指由硬件设备所引发的网络故障。在硬件故障中线路故障、端口故障、集线器或路由器故障及主机物理故障是较为常见的几种故障。 逻辑故障又称为软故障,表现特征为网络不通,或者同一个链路中有的网络服务通,有的网络服务不通。究其根源,是由于设备配置错误或者软件安装错误所致。路由器逻辑故障、主机逻辑故障、病毒故障是几种常见的逻辑故障。 二、排除故障的具体方法 排除故障的方法是不外乎从软件设置和硬件损坏两个方面来考虑: ㈠物理故障及排除方法 1、线路故障最普遍的情况是线路不通,是网络中常见的故障。线路损坏或线路受到严重电磁干扰时最容易引发该故障。诊断此故障时,若线路很短,最直接的方法是将该网络线一端插入一台能够正常连入局域网的主机的RJ45插空内,另一端插入正常的集线器端口中,然后在DOS环境下,使用PING命令在本主机上检测线路另一端主机(或路由器)的端口能否响应,用TRACEROUTE命令检查路由器配置是否正确,根据检测结果进行判断;若线路稍长,不方便移动,可使用网线测试仪器进行线路检测;若线路太长,或线路由电信供应商提供,则需要与提供商协同检查线路,确认是否线路中间出现了故障。 对于存在严重电磁干扰的检测,可以使用屏蔽性能很强的屏蔽线在该线路上进行通信测试,若通信正常,表明存在电磁干扰。若问题依旧,可排除电磁干扰故障。 2、端口故障分为插头松动及端口本身的物理故障。此类故障一般会直接影响到与其相连的其他设备的信号灯状态。信号灯较直观,通过信号灯大体上可以判断出故障的发生范围及有可能存在的因素。检测时,首先应检查RJ45插头是否松动或检查RJ45接口是否制作完好,然后查看集线器或交换机的接口,如果某个接口存在问题,可以更换接口后再进行验证是否真的存在端口故障。 3、路由器或集线器故障会直接导致网络不通。这类故障也是网络上一种常见的故障,故障的现象与线路故障很相近,在诊断此种故障时,必须用专门的诊断工具来收集路由器的端口流量、路由表、路由器CPU温度、负载及路由器的内存余量、计费数据等数据。检测时,可采用替换排除法,用通信正常的网线和主机来连接路由器或集线器,若通信正常,表明路由器或集线器没有故障;反之则应调换路由器(或集线器)的端口来确认故障;很多情况下,路由器(或集线器)的指示灯表明了其本身是否存在故障,正常的情况下对应端口的指示灯为绿色指示灯。通过以上测试后,若问题依旧,可断定路由器或集线器上存在故障。 4、主机物理故障包括网卡物理故障,网卡插槽故障,网卡松动及主机本身故障。对于网卡插槽故障和网卡松动的诊断可通过更换网卡插槽来进行。如果更换插槽仍不能解决故障,可将网卡放到其他正常工作的主机上测试,若正常通信,是主机本身故障,若无法工作,是网卡物理物理故障,更换网卡故障可排除。

典型网络故障总结

典型网络故障总结 网络故障的一般分类 网络故障一般分为两大类:连通性问题和性能问题。它们各自故障排除的关注点如下: ?连通性问题 硬件、系统、电源、媒介故障 配置错误 不正确的相互作用 ?性能问题 网络拥塞 到目的地不是最佳路由 转发异常 路由环路 网络错误 一般网络故障的解决步骤 故障排除系统化是合理地一步一步找出故障原因并解决的总体原则。它的基本思想是系统地将由故障可能的原因所构成的一个大集合缩减(或隔离)成几个小的子集,从而使问题的复杂度迅速下降。 故障排除时有序的思路有助于解决所遇到的任何困难,下图给出了一般网络故障解决的处理流程。 网络故障排除基本步骤 我们以一个故障排除的实例来学习如何应用这些步骤。

案例:某用户网段广播包过多造成该网段的服务器FTP业务传输速度变慢 组网图如下: 某校园网的三个局域网,其中10.11.56.0为一个用户网段,10.11.56.118为一个日志服务器;10.15.0.0是一个集中了很多应用服务器的网段。 用户网段广播包过多造成该网段的服务器FTP业务传输速度慢 1. 故障现象描述 要想对网络故障做出准确的分析,首先应该了解故障表现出来的各种现象,然后才能确定可能产生这些现象的故障根源或症结。因此,对网络故障做出完整、清晰的描述是重要的一步。 如上述案例,用户反映:“日志服务器与备份服务器间备份发生问题。”这就是一个不完整不清晰的故障现象描述。因为这个描述没有讲述清楚下列问题: ●这个问题是连续出现,还是间断出现的? ●是完全不能备份,还是备份的速度慢(即性能下降)? ●哪个或哪些局域网服务器受到影响,地址是什么? 正确的故障现象描述是: 在网络的高峰期,日志服务器10.11.56.11到集中备份服务器10.15.254.253之间进行备份时,FTP传输速度很慢,大约只有0.6Mbps。 2. 故障案例相关信息收集 本步骤是搜集有助于查找故障原因的更详细的信息。主要是三种途径: ●向受影响的用户、网络人员或其他关键人员提出问题; ●根据故障描述性质,使用各种工具搜集情况,如网络管理系统、协议分析仪、相关show命令等; ●测试性能与网络基线进行比较。 如上述案例,可以向用户提问或自行收集下列相关信息: ●网络结构或配置是否最近修改过,即问题出现是否与网络变化有关? ●是否有用户访问受影响的服务器时没有问题? ●在非高峰期日志服务器和备份服务器间FTP传输速度是多少? 通过该步骤,可以收集到了下面一些相关信息: ●最近10.11.56.0网段的客户机不断在增加; ●129.9.0.0网段的机器与备份服务器间进行FTP传输时速度正常为7Mbps,与日志服务器间进行FTP传输时速度慢,只有0.6Mbps;

地市级10kV配网典型故障处理案例分析

地市级10kV配网典型故障处理案例分析 摘要:本文着重分析了10kV配网运行中两点同相接地、两点不同相接地、疑似单相接地等特殊故障现象,并提出正确迅速的处理方法,确保配网安全运行。 关键词:配网运行;典型故障;处理方法 一、漯河电网配网故障分析的意义 漯河配网规模越来越大,配网故障也日趋复杂,对配网的安全可靠运行要求越来越高。漯河地区10kV电网正常运行方式为中性点不接地系统。10kV单相接地故障是漯河配网的各类故障中发生几率最高的一种,单相接地故障(不包括瞬间及间隙性接地)占比80%以上。现对配网典型故障进行分析,总结规律,从而作出正确迅速处理,确保电网安全稳定运行,同时作为经验学习材料供新进学员学习。 二、10kV小电流接地系统的判断 如何判断小电流接地系统的各种故障。中性点不接地电网发生单相接地短路的现象是:故障相电压降低为零,其他两相电压升高或上升为线电压,其接地相的判别方法为: 1、如果一相电压指示为零,另两相为线电压,则为零的相即为接地相; 2、如果一相电压指示较低,另两相较高,则较低的相即为接地相; 3、如果一相电压接近线电压,另两相电压相等且这两相电压较低时,判别原则是“电压高,下相糟”,即按A\B\C相序,哪一相电压高,则其下相即可能为接地相。 各种单相接地短路的特征 故障类型各相对地电压特点故障相判别 单相完全接地一相电压为零,两相升高为线电压电压为零的相为接地相 单相不完全接地一相电压降低但不到零,两相升高但不相等,其中一相可略超过线电压电压降低相为接地相 单相断线一相电压升高,不超过 1.5Ue,两相电压降低且相等,不低于0.866Ue 电压升高相为断线相

关于网络故障方面的一些常见的问题及解决方法

关于网络故障方面的一些常见的问题及解决方法 21 号。如果有,必须手工更改这些设备的中断和 I/O 地址设置。 34 、故障现象:在“网上邻居”或者“资源管理器”中只能找到本机的机器名。 故障分析、排除:网络通信错误,一般是网线断路或者与网卡的接触不良,还有 可能是 H u b 的问题。 35

故障现象: 可以访问服务器, 也可以访问 Int ern et , 却无法访问其他的工作站。 故障分析、排除:如果使用了 w i n s 解析,可能是 wins 服务器地址设置不当;检 查网关设置,若双方分属不同的子网而网关设置有误,则可能看到其他工作站;检查 子网掩码设置。 36 、故障现象:网卡在计算机系统无法安装。

故障分析。排除:第一种可能是计算机上安装了许多其他类型的接口卡,造成中 断和 I/O 地址冲突。可以先将其他不重要的卡拿下来,在安装网卡,最后在安装其他 接口卡。第二种可能是计算机中有一些安装不正确的设备,或者有未知设备一项,是 系统不能检测网卡。这时应该删除未知设备中的所有选项,让偶重新启动计算机。第 三种可能是计算机不能识别这一种类型的网卡,一般只有跟换网卡了。 37 、故障现象:局域网上可以 Ping 通 I P

地址,但 P i n g 不通域名? 故障分析、排除: T C P/I P 协议中的“DNS设置”不正确,请检查其中的配置。 对于对等网, “主机”应该填写自己机器本身的名字, “域”不需填写,DNS服务器 应该填自己的IP。对于服务器/工作站网,主机应该填写服务器的名字,域填写局 域网服务器设置的域, DNS 服务器应该填写服务器的 I P 。 38

5G通信网络优化最佳实践之5G演示之接入失败问题总结案例

5G通信网络优化最佳实践之5G演示之接入失败问题总结案例 目录 5G演示之接入失败问题总结案例...................................................................错误!未定义书签。 一、问题描述 (2) 二、分析过程 (4) 2.1SA组网架构和终端注册流程 (4) 2.2测试设备和SIM卡排查 (6) 2.3信令分析 (7) 2.4基站对比排查 (12) 2.5问题定位结论 (14) 三、解决措施 (14) 四、经验总结 (14)

【摘要】由于5G新技术刚投入使用,在业务演示中经常涌现各种各样的技术问题,对现场技术人员技能要求高。本文以佛山电信在业务演示中定位解决某紧急技术问题的过程为例,说明演示保障中应对技术问题的思路和方法。在这次保障中,5G手机和CPE不能附着网络,时间紧迫,现场技术人员通过更换SIM卡、更换终端设备、更换基站、核查对比参数和license、分析信令等多种手段进行快速排查,最终在业务正式演示开始前成功定位问题。本文总结了该问题的定位过程,为演示保障中如何处理技术问题提供参考。 【关键字】5G 演示 【业务类别】5G 一、问题描述 5G网络作为第五代移动通信网络,以其超高速率、超低时延和超大连接,将大大加速智能驾驶、智慧医疗、智能工业制造等新技术新应用的落地,推动构建一个全移动和全联接的社会。因此政府和各行各业也都对5G表达了浓厚的兴趣,2019年以来5G业务演示在佛山如火如荼地进行。 佛山电信为接待政府和行业伙伴,计划5月18号在电信魁奇大楼通过5G体验车和华为5G手机Mate20X演示5G业务,组网模式为SA组网。体验车业务包括5G速率体验、360 度VR直播、16路4K高清视频直播、IPTV点播等,体现5G网络超大带宽特点;Mate20X 演示业务包括5G速率体验、5G通话等。为了关键时刻不出问题,业务演示前一天分别进行了体验车和手机业务验证,业务正常。 下图为体验车内高清视频演示屏幕示意图。 下图为高清视频演示网络组网架构示意图。

某公司网络PING延迟故障案例解析

某公司网络PING延迟故障案例解析 一、故障描述 故障地点: 石家庄某公司 故障描述: 网络通讯严重阻塞,用户访问外网服务器以及互联网的速度均非常缓慢,甚至不能访问,PING 网关延期。如图: 二、故障详细分析 1. 前期分析 初步判断引起问题的原因可能是: ●ARP病毒 ●网络病毒攻击 开始实际工作配差 1、登录到各交换机,查看内存及CPU的利用率,均正常。 2、通过OMNIPEEK捕获并分析网络中传输的数据包,具体过程如下。 在核心交换机上做好端口镜像,启动OMNIPEEK,约3.08分钟后停止捕获并分析捕获到的数据包。 XX公司网的主机约为300台,一般情况下,有200台左右上网,等停止分析后,我们在OMNIPEEK主界面左边的节点浏览器中发现的主界面查看,在EXPERT的Hierarchy中查看,诊断tcp connection refused时间竟然达到了5731个,感觉很是不对。如图:

进行定位查看,发现有一台计算机极为不正常如图:

由以上看到,可能被外部的DDOS攻击,可能是此计算机感染病毒,进一步查看如图: 可以看到外网计算正在通过135端口正在扫描此计算机,因此可以断定正在被DDOS攻击,此计算机一定感染了木马之类的蠕虫病毒。 找到问题的根源后,正准备对CAI2主机进行隔离,过了一会儿,再次PING网关,还是延迟,但不是太严重了,感觉还是有计算机感染病毒或有ARP攻击,随即再次分析此包,但最终没

有找到可疑的计算机,其间也关闭了几个流量有问题的计算机,但问题还是不能解决,正在百思不得其解时,突然脑子一动:何不尝试着通过分析我自己的计算机,再排查故障呢? 于是笔者选择了科来网络分析系统6.7试用版啊?(笔者只有50个用户的抓包,因此刚开始选择了OMNIPEEK。)设置好过滤条件,这里为什么选在192.168.1.1呢,笔者怀疑是不是有人设置了和网关相同的IP地址呢?选择如下图: 打开自己的计算机进行PING,然后用科来进行抓包,58秒后如下图: 其中8c:68是笔者计算机的MAC,09:37为网关MAC,突然多出了一个A9:4D.查看分析如图:

网络故障案例与故障排除方法

网络故障案例与故障排除方法 一、网络故障案例 故障现象: 一日早晨上班开机,Windows XP系统正常启动后,顺手打开Internet Explorer浏览器,想好好浏览一下当日的新闻快报,却发现IE浏览器的窗口里空空如也。认真一查,发现IE提示为“DNS错误”,刷新几次都是如此,看来网络出问题了。 故障处理: 首先怀疑的当然是DNS服务器了,于是赶忙启动系统的“控制面板→网络连接→网络属性”菜单,点选其中的TCP/IP协议,查看罗列其中的DNS列表,发现配置并没有错误,打了个电话给当地的ISP机房热线,回答是出奇的肯定:DNS No Problem! 难道是我的网络或系统出了故障吗? 大概是最近病毒泛滥成灾的缘故吧,我又想到是否我的机子染了病毒或木马,于是马上拿出最新的防毒软件和防火墙软件,一阵穷追猛打,结果是病毒一个也没有,网站仍然登不上去。 这时我开始怀疑机子的网络配置出了问题,于是点“开始”菜单里的“运行”项,在其中输入cmd并回车,进入了DOS命令行窗口,在其中敲入“Ipconfig /all”回车。这时本机的网卡状态,包括MAC 地址,IP地址,子网掩码,网关地址及DNS服务器等关键参数全部罗列出来,我左顾右盼也没发现任何差错。看来问题不在软件上,而是硬件有麻烦了。

无意中我查看了一下桌面右下角图标的网络状态,发现网络的发送/接收数据包数目居然都是0!这怎么可能?难道是网卡不行了?可是网络右下角的连通状态提示分明给出了“以10M速度连接”的提示,而我在“运行”窗口中敲入“Ping 127.0.0.1”作回环测试,也报告一切正常。于是我理所当然地将网卡故障的可能性排除在外。 转念我又把矛头指向了单位局域网中那台价低位廉、年久失修的交换机上。跑过去一看,嘿!果然不出所料,连接我的桌面电脑的交换机端口指示灯居然不亮!难道这就是问题的根源?可是去问问同事,大伙儿异口同声表示上网正常,这表明这台年迈的交换机还健康长寿,再将同事所用的交换机端口与我互换,他们仍能正常上网,这表明交换机上与我机子相连的接口亦无问题,这下惟一的希望就在连通网卡与交换机之间的网线上了。 由于平时用此网线上网一直正常,因此对它的接线配对无可怀疑,惟一的可能或许是器件老化及经常拔插导致接触不好,四处奔波借来一个网线连通测试仪一测,接近100MB的良好连通性差点让我气歪了嘴!看着网络状态上几乎凝固了的“0”数据包收发,百般无奈之中抱着试试看的想法打开了机箱,看着固化在主板上的那个网卡,烦乱中我用手狠狠地敲了它两下——没想到奇迹发生了!网络状态上的收发数据包计数从“0”变成了“10”,“90”,“200”……顺手打开IE浏览器,一个个熟悉的网站顿时映入眼帘!原来故障的源头竟是这最不放在心上的网卡!它与主板的牢固粘合导致软件测试时报告一切正常,而它在与网线接口处的微小松动却使得网络在物理上已完全隔

传输故障排除案例集锦(HUAWEI)

1 业务中断的处理 1.1 更换光板类型错误导致对端收光不正常 【系统概述】 某传输组网如图1所示,4个OptiX 2500+设备组成双向复用段保护环;1号站为业务中心点,连接网管。其中,3号站和2号站之间距离较长,使用了BPA 光放板。 1w MSP OptiX 2500+23 4e e e e w w w 图1 系统组网图 【故障现象】 某日机房维护人员发现2号站接收3号站方向的S16有R-LOS 告警,全网正常倒换,业务未受影响,用网管查询2号站的告警,PA 有IP-FAIL (无输入光)告警,3号站的BA 有IP-FAIL 告警。 【故障分析及排除】 BPA 板光口1对应的是BA (功放,将 S16的输出光信号放大14或17dBm );光口2为PA (前放,当输入光功率在-22dBm ~-32dBm 之间时,光口OUT2输出光功率变化范围在-7dBm ~-21dBm )。光信号经过BPA 的尾纤连接及信号流向如图2所示:

OUT IN IN OUT OUT IN S16BA PA S16 3号站2号站 图2 BPA光信号流向 (1) 根据光信号经过BPA的信号流可以看出,由于3号站光放板 的BA未收到光信号,导致了2号站的PA、S16报收无光。 可以判断故障点在3号站; (2) 维护人员带S16、BPA、尾纤、光功率计到3号站; (3) 在3号站测试S16板的输出光功率值,光功率计显示无光信 号。可以判断是S16板故障; (4) 将带的S16板插上,测试S16输出光功率为0dBm,恢复尾 纤连接; (5) BA板告警消失,但S16仍有红灯一闪告警,查询为MS-RDI; (6) 查询2号站S16,仍有R-LOS告警; (7) 在3号站,将换上去的S16板发光功率衰减到-15dBm做自环, 告警消失。判断新换上去的S16并没有损坏; (8) 为什么仍有告警呢?分析原因是3号站的S16板使用有错, SS62S1605与SS62S1604波长是一样的,而色散受限距离不同,可能是色散过大导致对端收光不正常。 (9) 查看3号站原来使用的S16的光板类型,为SS62S1605;刚 换上去的S16类型为SS62S1604; (10) 更换同类型的S16,故障消除。

10个最常见的网络故障

10个最常见的网络故障(上) 网络发生故障是难免的,重要的是如何在发生故障后快速地隔离和排除故障。网络维护人员应该配备相应的工具和相应的知识,以便及时、有效的找到和解决问题。本文讨论了网络技术人员和工程师经常遇到的十个令人头疼的问题,通过分析问题的描述和症状的了解,讨论使用何种工具来帮助查找这些故障。本文的案例都具有广泛地应用价值。 问题1:逮捕物理层的滥用者 故障症状:不能登陆或时断时续。只影响一个工作站,而该站原先没有问题 问题分析:电缆终端链路太长。用户每天都移动,弯曲,连接和切断网络终端(尤其时膝上型笔记本电脑)。廉价的电缆测试仪就能检查这种问题。在你能确切地说是电缆的问题之前,通常首先考虑不是电缆的问题。这需要使用网络测试工具来证明本地网段的健康状况是否良好,集线器端口功能是否正常,网卡及其驱动程序工作是否良好。最后,检查网络互连设备是否有问题。 只有此时,你才会知道为了孤立有问题的终端,断开的连接器或是接地回路等问题该从何处着手测试电缆。在铜轴线网络中,搜寻在同轴“T型头”和网卡之间的断头,在UTP网络中,连续运行仪器图测试功能,不断扭动终端以识别接触不良或短路。 解决问题:更换工作站连接电缆,更换损坏的连接器,或者必要的话停止使用水平电缆。再次全面检查处理过的电缆。 问题2:快速以太网比升级前的以太网还慢 故障症状:10Mbps的以太网速度慢,升级为100Mbps快速以太网后甚至不能连接上网。影响新工作站或升级的工作站连接上网。 问题分析:对于UTP5类非屏蔽双绞线,用电缆测试仪测试其是否符合对应100Mbps 传输速率的EIA/TIA-TSB67标准。某些在10Mbps以太网工作正常的电缆链路因为近端串扰太大在100Mbps以太网就不能正常工作。信号耦合到邻近线对引起高频信号传输失败。将UTP的线对分开甚至会使网络在达到一定流量时瘫痪 解决问题:更换或停用不能连接的链路,故障清除后再全部测试处置过的链路。 问题3:无效的看门狗 故障症状:不能连接Novell网络的Netware远程服务器。影响本网段内与服务器相连的所有工作站 问题分析:检查网段的健康状况,注意观察其利用率,碰撞,错误帧和广播帧水平。此时可观察到大量的碰撞或错误帧,该碰撞或错误帧可引起客户机和服务器之间“Hello”帧出

电业局网络故障诊断案例分析

案例分析-某电业局网络故障诊断 一、故障描述 故障地点: 某电业局 故障现象: 网络严峻堵塞,内部主机上网甚至内部主机间的通讯均时断时续。 故障详细描述:

网络突然出现通讯中断,某些VLAN不能访问互联网,且与其它VLAN的访问也会出现中断,在机房中进行ping包测试,发觉中心交换机到该VLAN内主机的ping包响应时刻较长,且出现间歇性丢包,VLAN与VLAN间的丢包情况则更加严峻。 二、故障详细分析 1.前期分析 初步推断引起问题的缘故可能是: ●交换机ARP表更新问题 ●广播或路由环路故障 ●人为或病毒攻击 需要进一步猎取的信息: ●网络拓扑结构及正常工作时的情况 ●交换机ARP表信息及交换机负载情况 ●网络中传输的原始数据包 2.具体分析 首先,我们从网络治理员那儿,得知了网络中主机共450台左右,

同时得到了网络的简单拓扑图,如图1所示。 (图1 网络原始拓扑简图) 从图1能够明白,网络中划分了6个VLAN,分不是10.230.201.0/24、10.230.202.0/24、10.230.203.0/24、10.230.204.0/24、10.230.205.0/24、10.230.206.0/24、,其中201~205这5个VLAN分不用于一个部门,而206为服务器专用网段。各VLAN同时连接上中心交换机(Passport 8010),中心交换机再连接到防火墙,由防火墙连接到Internet以及省单位。大致了解了网络拓扑后,我们以超级终端方式登录中心交换机,发觉交换机的负载较大,立即清除交换机ARP表并重启,但故障仍然存在,因此我们决定对网络进行抓包分析。

LTE核心网常见投诉案例分析

LTE核心网常见投诉案例分析 案例一:临时方案用户预换卡不能使用2、3G业务 【故障现象】 临时方案的用户,在更换USIM卡但未开通4G业务的情况下,在4G网络的覆盖下,用4G手机终端可能无法正常使用2,3G业务。只能在4G手机上设置“2,3G only”,才能恢复正常使用。 【故障分析】 临时方案的用户,在更换USIM卡但未开通4G业务的情况下,当前BOSS系统只是将用户的IMSI鉴权信息通过BOSS指令存储到HSS,并未建立IMSI和MSISDN的关联,即未放号为签约用户的任何2、3G的分组域、电路域和4G 业务的签约信息。这种场景下HSS给MME返回 DIAMETER_ERROR_USER_UNKNOWN的错误码,MME收到HSS的DIAMETER_ERROR_USER_UNKNOWN码后,给终端返回#8 “EPS services and non-EPS services not allowed”的NAS原因值。终端收到“EPS services and non-EPS services not allowed”的NAS值后,不再尝试重新选网。【故障解决】 针对这种临时方案的用户,如果只更换USIM卡不签约4G业务,根据测试,MME给终端返回#7 “EPS services not allowed”的NAS值能够使终端较快地重选到2、3G网络。根据协议中定义的映射规则,HSS需要给MME返回DIAMETER_ERROR_UNKNOWN_EPS_SUBSCRIPTION (5420) with Error Diagnostic of NO_GPRS_DATA_SUBSCRIBED的错误原因值,对应到HSS上,

无线路由器故障经典案例追踪分析

在企业环境下部署无线网络,方便了企业内部的移动办公。而无线路由器则是无线网络的核心组件,它的运行状态决定了无线网络的传输能力。正因如此,维护无线路由器,使其安全高效地运行是管理员首先要考虑的问题。 下面列举几个无线路由器的经典案例,希望对大家有所帮助。 案例1:无法登录无线路由器的设置页面进行路由设置 原因:排除硬件及其连接故障,主要是之前登陆时所创建的连接有误。 排除故障: 第一步:首先检查路由器与电脑的硬件无线连接情况,检查路由器LAN口上的指示灯是否正常。 第二步:如果计算机中装有防火墙或实时监控的杀毒软件,都暂时先关闭,然后将本机IP 地址设为与路由器同一网段,再将网关地址设为路由器的默认IP地址。 第三步:打开浏览器的Internet选项对话框,在连接选项中,如果曾经创建过连接则勾选从不进行拨号连接选项,点击局域网设置按钮,将已勾选的选项全部取消选中即可。 案例2:提示网络不通,连接错误 原因:硬件错误,连接故障及其无线网卡的设置都可能造成网络连接故障。 排除故障: 第一步:首先要检查的是连接配置上有无错误,在确保路由器电源正常的前提下查看宽带接入端,路由器上的指示灯可以说明宽带线路接入端是否正常,由说明书上可以辨认哪一个亮灯为宽带接入端及用户端,观察其灯闪亮状态,连续闪烁为正常,不亮或长亮不闪烁为故障。我们可以换一根宽带胶线代替原来的线路进行连接。 第二步:如果故障依旧,查看路由器的摆放位置与接收电脑的距离是否过远或中间有大型障碍物阻隔。这时请重新放置路由器,使无线路由器与接收电脑不要间隔太多障碍物,并使接收电脑在无线路由器的信号发射范围之内即可。 第三步:无线网卡的检查也必不可少,可以更换新的网卡并重新安装驱动程序进行调试,再网卡中点击查看可用的无线连接刷新网络列表后设置网卡参数,并再属性中查看有无数据发送和接收情况,排除故障。 提示:当然路由器自身的硬件故障也是导致线路不通的直接原因,但这并不是我们所能解决的范围,应及时联系厂商进行维修或更换。

网络故障案例手册Ver1.0

网络故障案例手册 Ver1.0

目录 案例编号20130208 (4) 交换机硬件故障引起网络中断 (4) 典型症状 (4) 其它现象 (4) 处置方法 (4) 案例具体原因 (4) 扩展 (6) 案例编号20130604 (6) 症状 (6) 处置方法 (6) 处置结果 (8) 扩展 (8) 案例编号20130614 (9) 症状 (9) 处置方法 (9) 处置结果 (9) 扩展 (9) 案例编号20131016 (10) 症状 (11) 处置方法 (11)

处置结果 (11) 扩展 (11)

案例编号20130208 交换机硬件故障引起网络中断 典型症状 A.在交换机log中出现如下信息%SW_MATM-4-MACFLAP_NOTIF: Host 68b5.99cd.d276 in vlan 8 is flapping between port Gi0/33 and port Po2; B.交换机在线检查各项参数未见异常,交换机重启后报错,无法加载IOS; 其它现象 交机机载高,网络延迟大,网络丢包。 处置方法 交换机离线与网络隔离,与故障交换机连接的服务器切换到备用交换 机中。 如不确认引起此故障的具体交换机,可将交换机与主网络逐一隔离。 案例具体原因 管理网络端口Port-ASIC芯片自检Fail。 以下为故障交换机启动自检全过程Log front_end/ (directory)

extracting front_end/fe_type_1 (34760 bytes) extracting front_end/fe_type_2 (78400 bytes) extracting front_end/front_end_ucode_info (86 bytes) extracting ucode_info (76 bytes) POST: PortASIC CAM Subsystem Tests : Begin HTD POST: Basic Test Failed POST: POST Failed POST: PortASIC CAM Subsystem Tests : End, Status Failed POST: CAM test failed POST Failed: disabling stack links and shutting down SDP driver class subsystem initialization failed *Mar 1 00:00:35.668: %SYS-3-LOGGER_FLUSHING: System pausing to ensure console debugging output. *Mar 1 00:00:35.668: %SYS-2-ASSERTION_FAILED: Assertion failed: "reg_used_xdr_portid_to_lc_logical_slot()" -Process= "Init", ipl= 0, pid= 3 -Traceback= 1DDA7F8 1DDAF44 1D46E6C 11EC2B0 11EC4A0 286CC78 286CD10 1DE64B8 1DE66F4 1A2F5C8 1A26098

PING大包丢包网络故障分析案例、解决方案

PING大包丢包故障分析 1.1. 故障描述 1. 故障环境 网络结构如下图所示: 如上图所示,两边网络通过光纤相连,中间设备只有光电转换器,到单位B的内部网络有一台防火墙 2. 故障描述 单位B在进行网络测试时,在单位B的出口路由器处PING单位A的出口路由器时,PING大包会出现丢包现象,但是PING小包正常。 1.2. 故障分析 1. 分析方法 主要通过专有的网络分析工具(科来网络分析系统)将故障时相应的数据包捕获下来进行深度分析,并通过分析发现相应的异常,从而定位故障原因的方法。 2. 部署科来网络分析系统 我们在单位B的光电转换器和路由器之间串连一个交换机,利用交换机的端口镜像功能,镜像两个端口的流量,并将科来网络分析系统部署在交换机的镜像口,如下图所示: 3. 分析数据包 通过故障重现,即在路由器接口处进行PING测试,并同时捕获数据包,得到的数据包如下图所示:

如上图所示,我们在使用大包PING对端时,对端返回了一个超时的数据包,查看它具体的数据包解码,如下图: 造成该故障的原因是因为,我们在网络中传输大包时,由于网络中“最大传输单元”的限制,大数据包会发生分片,当分片数据包都到达目的端时会发生重组,一旦有一个分片丢失就会造成数据报重组超时,所以会发送超时的差错提示。 4. 分析结论 我们在进行PING测试时,数据包只经过了光电转换器和中间链路,所以造成该故障的原因就是光电转换器或中间链路丢包造成的。 1.3. 总结 当我们在分析数据包时,发现通信的数据包中有异常的数据包,那么我们就需要关注它是何种应用的数据包,通过分析异常的数据包可以帮助我们快速的找到故障原因,从而解决故障。

相关主题