[caiu] Wirelink Telecom - esclarecimentos sobre problema do dia 12/08

Douglas Fischer fischerdouglas em gmail.com
Quinta Agosto 14 21:02:57 BRT 2014


Parabéns pela transparência.


Em 14 de agosto de 2014 09:04, Filipe Abelha Melo <
filipeabelhamelo em gmail.com> escreveu:

> Bom dia a todos !
>
> Como a Wirelink foi citada por alguns dos nossos clientes logo no início do
> problema de terça-feira, acreditamos ser importante esclarecer o que de
> fato
> ocorreu de forma bem resumida, direta e aberta:
>
> 1.       Sim, fomos afetados pelo estouro das rotas > 512k atingindo 20% do
> nosso tráfego;
>
> 2.        O diagnóstico correto demorou 6 horas devido:
>
> a.       Diversas outras falhas em outras operadoras. Começamos procurando
> externamente a causa do problema.
>
> b.      Nos routers o output dos comandos (rotas) não refletia o que
> ocorria
> na TCAM, ou seja, o router mostrava as rotas e confiávamos no que ele
> mostrava.
>
> c.       A TCAM mostrava 95% de uso, reforçando mais a idéia de que o
> problema não era estouro. Nesse site podemos ver q na terça logo cedo
> alguma
> operadora enviou 15K rotas a mais:
> http://www.bgpmon.net/what-caused-todays-internet-hiccup/. Publicou e logo
> retirou, mas, foi o suficiente para dar um “freeze” na TCAM.
>
> 3.       Assim que tivemos a certeza do diagnóstico vimos que:
>
> a.       Precisávamos realocar recurso da TCAM tirando do ipv6 e ampliando
> o
> ipv4.
>
> b.      Seria necessário reboot.
>
> 4.       Temos 5 routers todos cisco linha 7600 (XL). Se 80% do tráfego
> estava normal não justificava fazer essa manutenção durante o dia.
>
> 5.       Começamos a manutenção 01h da madrugada de terça para quarta.
>
> a.       Murphy deu o ar de sua graça e 2 das routers não subiram. Isso
> reforçou o acerto na decisão de fazer somente na madrugada.
>
> b.      Tivemos que substituir placa e realizar alguns procedimentos em
> modo
> rommon.
>
> 6.       A manutenção que era para durar 1h no máximo, durou 5hs.
>
>
>
> Há alguns meses, quando vimos que a tabela ipv4 ultrapassou 90% iniciamos o
> processo de análise das opções para substituição dos routers core, pois,
> acreditamos que retirar recursos do ipv6 para alocar ao ipv4 é uma medida
> pouco ortodoxa. É tanto que um deles já chega na semana que vem.
>
>
>
> Problema resolvido, pedimos desculpas pelo transtorno e trabalharemos ainda
> mais daqui pra frente para garantir a alta disponibilidade do serviço.
>
>
>
> Cordialmente,
>
> Wirelink Telecom
>
>
>
>
>
>
>
>
>
>
>
> _______________________________________________
> caiu mailing list
> caiu em eng.registro.br
> https://eng.registro.br/mailman/listinfo/caiu
>
>
> --> PARA SAIR DA LISTA SIGA AS INSTRUÇÕES em:
>
> https://eng.registro.br/mailman/options/caiu
>



-- 
Douglas Fernando Fischer
Engº de Controle e Automação


More information about the caiu mailing list