[caiu] Wirelink Telecom - esclarecimentos sobre problema do dia 12/08

Rinaldo Vaz rinaldopvaz em gmail.com
Sexta Agosto 15 00:55:13 BRT 2014


Parabéns pela transparência.(2)


Em 14 de agosto de 2014 21:02, Douglas Fischer <fischerdouglas em gmail.com>
escreveu:

> Parabéns pela transparência.
>
>
> Em 14 de agosto de 2014 09:04, Filipe Abelha Melo <
> filipeabelhamelo em gmail.com> escreveu:
>
> > Bom dia a todos !
> >
> > Como a Wirelink foi citada por alguns dos nossos clientes logo no início
> do
> > problema de terça-feira, acreditamos ser importante esclarecer o que de
> > fato
> > ocorreu de forma bem resumida, direta e aberta:
> >
> > 1.       Sim, fomos afetados pelo estouro das rotas > 512k atingindo 20%
> do
> > nosso tráfego;
> >
> > 2.        O diagnóstico correto demorou 6 horas devido:
> >
> > a.       Diversas outras falhas em outras operadoras. Começamos
> procurando
> > externamente a causa do problema.
> >
> > b.      Nos routers o output dos comandos (rotas) não refletia o que
> > ocorria
> > na TCAM, ou seja, o router mostrava as rotas e confiávamos no que ele
> > mostrava.
> >
> > c.       A TCAM mostrava 95% de uso, reforçando mais a idéia de que o
> > problema não era estouro. Nesse site podemos ver q na terça logo cedo
> > alguma
> > operadora enviou 15K rotas a mais:
> > http://www.bgpmon.net/what-caused-todays-internet-hiccup/. Publicou e
> logo
> > retirou, mas, foi o suficiente para dar um “freeze” na TCAM.
> >
> > 3.       Assim que tivemos a certeza do diagnóstico vimos que:
> >
> > a.       Precisávamos realocar recurso da TCAM tirando do ipv6 e
> ampliando
> > o
> > ipv4.
> >
> > b.      Seria necessário reboot.
> >
> > 4.       Temos 5 routers todos cisco linha 7600 (XL). Se 80% do tráfego
> > estava normal não justificava fazer essa manutenção durante o dia.
> >
> > 5.       Começamos a manutenção 01h da madrugada de terça para quarta.
> >
> > a.       Murphy deu o ar de sua graça e 2 das routers não subiram. Isso
> > reforçou o acerto na decisão de fazer somente na madrugada.
> >
> > b.      Tivemos que substituir placa e realizar alguns procedimentos em
> > modo
> > rommon.
> >
> > 6.       A manutenção que era para durar 1h no máximo, durou 5hs.
> >
> >
> >
> > Há alguns meses, quando vimos que a tabela ipv4 ultrapassou 90%
> iniciamos o
> > processo de análise das opções para substituição dos routers core, pois,
> > acreditamos que retirar recursos do ipv6 para alocar ao ipv4 é uma medida
> > pouco ortodoxa. É tanto que um deles já chega na semana que vem.
> >
> >
> >
> > Problema resolvido, pedimos desculpas pelo transtorno e trabalharemos
> ainda
> > mais daqui pra frente para garantir a alta disponibilidade do serviço.
> >
> >
> >
> > Cordialmente,
> >
> > Wirelink Telecom
> >
> >
> >
> >
> >
> >
> >
> >
> >
> >
> >
> > _______________________________________________
> > caiu mailing list
> > caiu em eng.registro.br
> > https://eng.registro.br/mailman/listinfo/caiu
> >
> >
> > --> PARA SAIR DA LISTA SIGA AS INSTRUÇÕES em:
> >
> > https://eng.registro.br/mailman/options/caiu
> >
>
>
>
> --
> Douglas Fernando Fischer
> Engº de Controle e Automação
> _______________________________________________
> caiu mailing list
> caiu em eng.registro.br
> https://eng.registro.br/mailman/listinfo/caiu
>
>
> --> PARA SAIR DA LISTA SIGA AS INSTRUÇÕES em:
>
> https://eng.registro.br/mailman/options/caiu
>



-- 
__________________
Rinaldo Vaz
82 81718528 - VIVO


More information about the caiu mailing list