自古以来,三板斧就一直被各路运维成功的使用着---漫谈传输故障处理三板斧,复位、拔插、掉电重启
自古以来,三板斧就一直被各路运维成功的使用着
三板斧一般是指:
1.单板复位,软复位又分为2种层次,一种是直接使用网管可视化操作界面右键中的软复位按钮或者命令行中的软复位命令,一种是使用网管的硬复位或者命令行界面中的硬复位操作(复位中的硬复位其实是使用远程对单个单板关电的形式虚拟单板拔插的操作。对于MSTP的以太网单板来说,比较旧的版本的单板,在硬复位后,数据会丢失,而且从网管下发也不会恢复。需要在网管上对各个数据界面,用笨办法截图,复位之后再手工配置。另外,不管是承载GSM的支路单板(即使你配置了TPS保护),还是承载ETH的以太网板,还是和交换机全光化相连的155M光板(即使你配置了跨板LAG保护),还是承载4G、5G的业务板卡(可能你配置多种叠加保护),业务单板作为传输网和业务网之间相连的端口,复位的时候,都会很大概率甚至可以说一定断业务。
2.单板拔插,顾名思义,就是把单板拔插一遍,做到极致的重启了。部分厂家提供了“单板拉手条微动开关”,你不用拔插单板,也可以起到类似拔插的效果。当然还是把单板直接拔出来效果最彻底,单板直接拔出来,其实起到了3个作用。1.所有的单板数据重新加载,这些单板远程软复位就能做到;2.单板所有的芯片重新加电,这个单板远程硬复位就能做到。3.单板和设备的重新耦合了一下,单板和设备之间如果接触不良,可能会很有改善。而且接触不良也只有这种处理方法,把全设备掉电重启,都没有这个效果。
3.全设备掉电重启,顾名思义,大招了。。。
为什么不重启呀?
1.必须判断故障是否需要硬件处理的故障,如果是光缆断了,你把设备重启多少遍可能也处理不了呀。注意我的用词,我用的是“硬件处理的故障”而“不是硬件故障”,因为部分光缆故障,为了倒换进程加快,小概率会使用单板复位的方法
2.必须要判断你需要复位哪块单板,比如你连业务经过哪些板卡都不知道,你怎么知道复位哪块单板。特别是骨干环和汇聚环传输设备,一个线路板卡,可能有4个10G环的光路,可能你只断了一个GE的业务,就要重启4个10G业务的业务,特别是业务单板,可能一个10个光口的业务单板,只有其中一个单板的一条业务中断了,三板斧可能让另外9个光口的正常业务陪着你中断。更何况,进入数据网时代,传输网已经是2.5层甚至3层设备,对于硬件故障点的判断更加复杂。笔者就遇到过,某个厂家的传输设备的GSM业务板卡故障虚占CPU造成了交叉单板负责4G业务的进程吊死,这个故障中,你复位4G业务板卡,复位交叉单板,甚至把整个设备关电再开电都没用,必须得单独复位这个GSM业务板卡,虚占CPU的问题才会解决。
3.需要评估重启的影响,传输网四大类型板卡的重启的影响分析如下:
4.四大板卡需要强调一下:线路板、交叉板、主控板:这三类板卡可能参与环路倒换控制,可能造成全环几个网元的业务都受影响;一个设备可能参与了多个环路的组网,复位这个设备的交叉板和主控板,甚至可能影响几个环的十几套设备。业务单板:复位,一定会中断业务,不管配置了什么保护都会断。
5.从故障处理的原则上来看故障处理不能造成业务数据的丢失,这一点,主控板就要慎重复位。故障处理不能业务影响的扩大化故障处理尽量要考虑各种操作日志的保存,当然为了最快恢复业务,有时候会在日志不保存,不测试的环境下进行三板斧操作,但是三板斧操作对于设备的性能信息和日志信息的损害,是需要考虑的。
故障处理尽量必要避免网络的失控,比如你想重启的网元是网关网元,你重启后,可能一个汇聚环一百多套设备就脱管了。
在PTN时代还需要考虑一些SDH时代不需要考虑的问题,比如SDH即使1000多条业务,但是因为是纯刚性组网,数据结构简单,可能掉电重启2分钟后整个网元业务都恢复了。而PTN,需要算路由,需要算标签,需要分发标签,甚至还要给每个端口重新分配MAC地址,很可能十几分钟才能恢复业务。最关键的是,在复位的这十几分钟,设备是脱管状态的,你突然找到了故障的原因想对网络进行操作,也操作不了的。6.一些软硬件准备
当发现头皮屑在飘雪的时候,当你和同事相互来电的时候,你可能给设备带来的电压,已经是设备烧穿电压的几百倍了。所以,原则上,对于机柜内部的操作,即使是更换尾纤,甚至抄写尾纤标签,都是要带防静电手腕的。更换单板一定要带防静电手腕,并对备件单板,和准备拔出来散热的单板的装载措施做好准备,一定要用防静电袋。虽然网管保存数据的能力很强,为了数据恢复的便利性,可以对部分数据界面进行截图,这样重新配置数据的时候可能舒适一些。