[caiu] Wirelink Telecom - esclarecimentos sobre problema do dia 12/08
Douglas Fischer
fischerdouglas em gmail.com
Quinta Agosto 14 21:02:57 BRT 2014
Parabéns pela transparência.
Em 14 de agosto de 2014 09:04, Filipe Abelha Melo <
filipeabelhamelo em gmail.com> escreveu:
> Bom dia a todos !
>
> Como a Wirelink foi citada por alguns dos nossos clientes logo no início do
> problema de terça-feira, acreditamos ser importante esclarecer o que de
> fato
> ocorreu de forma bem resumida, direta e aberta:
>
> 1. Sim, fomos afetados pelo estouro das rotas > 512k atingindo 20% do
> nosso tráfego;
>
> 2. O diagnóstico correto demorou 6 horas devido:
>
> a. Diversas outras falhas em outras operadoras. Começamos procurando
> externamente a causa do problema.
>
> b. Nos routers o output dos comandos (rotas) não refletia o que
> ocorria
> na TCAM, ou seja, o router mostrava as rotas e confiávamos no que ele
> mostrava.
>
> c. A TCAM mostrava 95% de uso, reforçando mais a idéia de que o
> problema não era estouro. Nesse site podemos ver q na terça logo cedo
> alguma
> operadora enviou 15K rotas a mais:
> http://www.bgpmon.net/what-caused-todays-internet-hiccup/. Publicou e logo
> retirou, mas, foi o suficiente para dar um “freeze” na TCAM.
>
> 3. Assim que tivemos a certeza do diagnóstico vimos que:
>
> a. Precisávamos realocar recurso da TCAM tirando do ipv6 e ampliando
> o
> ipv4.
>
> b. Seria necessário reboot.
>
> 4. Temos 5 routers todos cisco linha 7600 (XL). Se 80% do tráfego
> estava normal não justificava fazer essa manutenção durante o dia.
>
> 5. Começamos a manutenção 01h da madrugada de terça para quarta.
>
> a. Murphy deu o ar de sua graça e 2 das routers não subiram. Isso
> reforçou o acerto na decisão de fazer somente na madrugada.
>
> b. Tivemos que substituir placa e realizar alguns procedimentos em
> modo
> rommon.
>
> 6. A manutenção que era para durar 1h no máximo, durou 5hs.
>
>
>
> Há alguns meses, quando vimos que a tabela ipv4 ultrapassou 90% iniciamos o
> processo de análise das opções para substituição dos routers core, pois,
> acreditamos que retirar recursos do ipv6 para alocar ao ipv4 é uma medida
> pouco ortodoxa. É tanto que um deles já chega na semana que vem.
>
>
>
> Problema resolvido, pedimos desculpas pelo transtorno e trabalharemos ainda
> mais daqui pra frente para garantir a alta disponibilidade do serviço.
>
>
>
> Cordialmente,
>
> Wirelink Telecom
>
>
>
>
>
>
>
>
>
>
>
> _______________________________________________
> caiu mailing list
> caiu em eng.registro.br
> https://eng.registro.br/mailman/listinfo/caiu
>
>
> --> PARA SAIR DA LISTA SIGA AS INSTRUÇÕES em:
>
> https://eng.registro.br/mailman/options/caiu
>
--
Douglas Fernando Fischer
Engº de Controle e Automação
More information about the caiu
mailing list