[caiu] Problemas com Links Host Fiber
Felipe Trevisan
fetrevisan em gmail.com
Quinta Agosto 6 16:29:47 BRT 2015
Sim, houve um problema de loop em uma das redes de acesso no dia 04/08/2015.
Abaixo relatório do incidente e estratégias para mitigação e não
recorrência. Não faço parte da equipe de engenharia, mas se precisarem de
mais informações, estou a disposição. Basta me adicionar no skype: trevisa
Abs,
1. Causa
O incidente iniciou-se às 13h53m do dia 03/08/2015, a partir de um alarme
de perda de pacotes
no nosso monitoramento. Foi aberto o incidente 2336112 para formalização e
tratamento.
2. Tratamento
O tratamento deste incidente foi executado através da sequência de ações
abaixo descritas:
- O incidente foi aberto pelo NOC e diagnosticado como perda de pacotes
anel de acesso após a
execução de testes L3 e L2. Foi escalado para engenharia de redes, com
objetivo de identificação
da causa e aplicação de correção de forma a interromper os efeitos do
evento;
- Durante a análise, foi identificado que vários equipamentos do anel de
acesso e o equipamento
de interconexão com a rede de backbone estavam indisponíveis. O chamado foi
escalonado para
gestão de infraestutura para alocação de equipes locais nos equipamentos
afetados, de forma a
identificar e eliminar o motivo da indisponibilidade;
- As equipes foram deslocadas até os respectivos equipamentos e não foram
constatados
problemas físicos. Foi provisionado acesso console ao time de engenharia de
redes e engenharia de
backbone, de forma a ser executada uma análise lógica;
- Como resultado da análise, foi identificado um loop L2 na vlan de
gerência dos equipamentos do
anel de acesso, onerando os equipamentos deste anel e o equipamento de
interconexão com a
rede de backbone. Devido à alta carga de processamento nos equipamentos e
de tráfego na vlan
de gerência, o acesso remoto de gerência aos equipamentos não estavam
disponíveis;
- Em atividade conjunta entre engenharia de redes, engenharia de backbone e
gestão de
infraestutura, foram alocados profissionais em todos os pontos afetados
pelo loop, e o loop foi
interrompido através de acesso local.
Em seguida os equipamentos que geraram o loop foram removidos da rede
temporariamente para
análise e mitigação da causa;
Após a eliminação da causa, os equipamentos foram readicionados à rede,
tendo o último
equipamento sido inserido às 18h15m.
3. Providências visando a não reincidência
Visando a eliminação de risco de reincidência e ampliação da segurança do
anel de acesso e de
backbone, as seguintes medidas serão implantadas:
- Eliminação da rede L2 de gerência dos equipamentos dos anéis de acesso. A
gerência passará a
ser executada através de loopback com roteamento L3, eliminando a
possibilidade de loop L2
devido à remoção da vlan comum aos equipamentos do anel;
- Substituição da interconexão entre anéis de acesso e anéis de backbone de
VPLS para
Ethernet-CCC, visando a não oneração de equipamentos de backbone em caso de
sobrecarga de
pacotes em anéis de acesso. O encapsulamento CCC impede que pacotes
trafegados dentro do
circuito encapsulado sejam processados pelos equipamentos de transporte,
limitando o uso de
recursos ao uso de capacidade de interfaces.
As alterações acima descritas serão aplicadas em 10 de Agosto de 2015 às
23h59m, com duração
prevista de 30 minutos. Não é esperado downtime durante a atividade pois a
alteração envolve
somente redes de gerência.
Nosso time de engenharia está à disposição para esclarecimento de qualquer
item deste relatório.
Caso seja necessário, é possível o agendamento de uma conferência com os
gestores responsáveis
pelo tratamento deste incidente e do plano de melhoria.
Buscando o pronto atendimento a qualquer tipo de solicitação,
disponibilizamos nosso escalation
list. Caso possua versões anteriores deste escalation list, solicitamos o
descarte e o uso desta
versão.
Painel de Controle: http://painel.grupohost.com.br
Caso não possua a senha, há um atalho para recebimento na url acima.
Através do painel, você pode consultar dados financeiros e abrir chamados
técnicos.
* Importante: Mantenha os contatos técnicos e administrativos atualizados
na aba Informações ->
Financeiro para assegurar o recebimento de todas as nossas interações.
NOC
Números nacionais: 0800-666-5000 | 4020-9730
RJ direto: 21 3385-9929
E-mail: noc em grupohost.com.br
Engenharia de Redes*
Telefone: 11 95038-9329 | 11 3777-3480
E-mail: redes em grupohost.com.br
*Acionamento após 1 hora da abertura do chamado no NOC, necessário número
do chamado
Controle de Qualidade **
Telefone: 11 99522-7804
E-mail: qualidade em grupohost.com.br
**Acionamento após 6 horas da abertura do chamado no NOC, necessário número
do chamado
Ativação
Telefone: 11 3777-4531
E-mail: ativacao em grupohost.com.br
Financeiro
Henrique Conde
Telefone: 11 3777-1957
E-mail: henrique.conde em grupohost.com.br
2015-08-04 9:28 GMT-03:00 Igor Thomaz Cassoni <djigor em gmail.com>:
> Ontem fiquei com circuitos lentos durante a tarde toda. Resolveram em torno
> de 18hrs.
> Hoje aparentemente tudo normal. Mas sinceramente é complicado demais
> confiar na Host
> Em 04/08/2015 08:59, "[DirectWeb] - Marcio" <marcio em grupodirectweb.com.br>
> escreveu:
>
> >
> > Pessoal,
> >
> >
> > Mais alguém da lista com problema com Links Host Fiber no dia de hoje ?
> >
> >
> > Ontem a Host Fiber teve um problema em algum equipamento CORE de sua
> rede,
> > e todos os meus circuitos ficaram indisponíveis, hoje todos estão com a
> > performance
> > de linha discada.
> >
> >
> >
> >
> >
> > Abs,
> >
> >
> > --
> > _______________________________________________
> > caiu mailing list
> > caiu em eng.registro.br
> > https://eng.registro.br/mailman/listinfo/caiu
> >
> >
> > --> PARA SAIR DA LISTA SIGA AS INSTRUÇÕES em:
> >
> > https://eng.registro.br/mailman/options/caiu
> >
> _______________________________________________
> caiu mailing list
> caiu em eng.registro.br
> https://eng.registro.br/mailman/listinfo/caiu
>
>
> --> PARA SAIR DA LISTA SIGA AS INSTRUÇÕES em:
>
> https://eng.registro.br/mailman/options/caiu
>
Mais detalhes sobre a lista de discussão caiu