[caiu] Problemas com Links Host Fiber

Felipe Trevisan fetrevisan em gmail.com
Quinta Agosto 6 16:29:47 BRT 2015


Sim, houve um problema de loop em uma das redes de acesso no dia 04/08/2015.

Abaixo relatório do incidente e estratégias para mitigação e não
recorrência. Não faço parte da equipe de engenharia, mas se precisarem de
mais informações, estou a disposição. Basta me adicionar no skype: trevisa



Abs,




1. Causa

O incidente iniciou-se às 13h53m do dia 03/08/2015, a partir de um alarme
de perda de pacotes

no nosso monitoramento. Foi aberto o incidente 2336112 para formalização e
tratamento.



2. Tratamento

O tratamento deste incidente foi executado através da sequência de ações
abaixo descritas:

- O incidente foi aberto pelo NOC e diagnosticado como perda de pacotes
anel de acesso após a

execução de testes L3 e L2. Foi escalado para engenharia de redes, com
objetivo de identificação

da causa e aplicação de correção de forma a interromper os efeitos do
evento;

- Durante a análise, foi identificado que vários equipamentos do anel de
acesso e o equipamento

de interconexão com a rede de backbone estavam indisponíveis. O chamado foi
escalonado para

gestão de infraestutura para alocação de equipes locais nos equipamentos
afetados, de forma a

identificar e eliminar o motivo da indisponibilidade;

- As equipes foram deslocadas até os respectivos equipamentos e não foram
constatados

problemas físicos. Foi provisionado acesso console ao time de engenharia de
redes e engenharia de

backbone, de forma a ser executada uma análise lógica;

- Como resultado da análise, foi identificado um loop L2 na vlan de
gerência dos equipamentos do

anel de acesso, onerando os equipamentos deste anel e o equipamento de
interconexão com a

rede de backbone. Devido à alta carga de processamento nos equipamentos e
de tráfego na vlan

de gerência, o acesso remoto de gerência aos equipamentos não estavam
disponíveis;

- Em atividade conjunta entre engenharia de redes, engenharia de backbone e
gestão de

infraestutura, foram alocados profissionais em todos os pontos afetados
pelo loop, e o loop foi

interrompido através de acesso local.

Em seguida os equipamentos que geraram o loop foram removidos da rede
temporariamente para

análise e mitigação da causa;

Após a eliminação da causa, os equipamentos foram readicionados à rede,
tendo o último

equipamento sido inserido às 18h15m.


3. Providências visando a não reincidência

Visando a eliminação de risco de reincidência e ampliação da segurança do
anel de acesso e de

backbone, as seguintes medidas serão implantadas:

- Eliminação da rede L2 de gerência dos equipamentos dos anéis de acesso. A
gerência passará a

ser executada através de loopback com roteamento L3, eliminando a
possibilidade de loop L2

devido à remoção da vlan comum aos equipamentos do anel;

- Substituição da interconexão entre anéis de acesso e anéis de backbone de
VPLS para

Ethernet-CCC, visando a não oneração de equipamentos de backbone em caso de
sobrecarga de

pacotes em anéis de acesso. O encapsulamento CCC impede que pacotes
trafegados dentro do

circuito encapsulado sejam processados pelos equipamentos de transporte,
limitando o uso de

recursos ao uso de capacidade de interfaces.

As alterações acima descritas serão aplicadas em 10 de Agosto de 2015 às
23h59m, com duração

prevista de 30 minutos. Não é esperado downtime durante a atividade pois a
alteração envolve

somente redes de gerência.


Nosso time de engenharia está à disposição para esclarecimento de qualquer
item deste relatório.

Caso seja necessário, é possível o agendamento de uma conferência com os
gestores responsáveis

pelo tratamento deste incidente e do plano de melhoria.


Buscando o pronto atendimento a qualquer tipo de solicitação,
disponibilizamos nosso escalation

list. Caso possua versões anteriores deste escalation list, solicitamos o
descarte e o uso desta

versão.


Painel de Controle: http://painel.grupohost.com.br

Caso não possua a senha, há um atalho para recebimento na url acima.

Através do painel, você pode consultar dados financeiros e abrir chamados
técnicos.

* Importante: Mantenha os contatos técnicos e administrativos atualizados
na aba Informações ->

Financeiro para assegurar o recebimento de todas as nossas interações.


NOC

Números nacionais: 0800-666-5000 | 4020-9730

RJ direto: 21 3385-9929

E-mail: noc em grupohost.com.br


Engenharia de Redes*

Telefone: 11 95038-9329 | 11 3777-3480

E-mail: redes em grupohost.com.br

*Acionamento após 1 hora da abertura do chamado no NOC, necessário número
do chamado


Controle de Qualidade **

Telefone: 11 99522-7804

E-mail: qualidade em grupohost.com.br

**Acionamento após 6 horas da abertura do chamado no NOC, necessário número
do chamado


Ativação

Telefone: 11 3777-4531

E-mail: ativacao em grupohost.com.br

Financeiro

Henrique Conde

Telefone: 11 3777-1957

E-mail: henrique.conde em grupohost.com.br


2015-08-04 9:28 GMT-03:00 Igor Thomaz Cassoni <djigor em gmail.com>:

> Ontem fiquei com circuitos lentos durante a tarde toda. Resolveram em torno
> de 18hrs.
> Hoje aparentemente tudo normal. Mas sinceramente é complicado demais
> confiar na Host
> Em 04/08/2015 08:59, "[DirectWeb] - Marcio" <marcio em grupodirectweb.com.br>
> escreveu:
>
> >
> > Pessoal,
> >
> >
> > Mais alguém da lista com problema com Links Host Fiber no dia de hoje ?
> >
> >
> > Ontem a Host Fiber teve um problema em algum equipamento CORE de sua
> rede,
> > e todos os meus circuitos ficaram indisponíveis, hoje todos estão com a
> > performance
> > de linha discada.
> >
> >
> >
> >
> >
> > Abs,
> >
> >
> > --
> > _______________________________________________
> > caiu mailing list
> > caiu em eng.registro.br
> > https://eng.registro.br/mailman/listinfo/caiu
> >
> >
> > --> PARA SAIR DA LISTA SIGA AS INSTRUÇÕES em:
> >
> > https://eng.registro.br/mailman/options/caiu
> >
> _______________________________________________
> caiu mailing list
> caiu em eng.registro.br
> https://eng.registro.br/mailman/listinfo/caiu
>
>
> --> PARA SAIR DA LISTA SIGA AS INSTRUÇÕES em:
>
> https://eng.registro.br/mailman/options/caiu
>


Mais detalhes sobre a lista de discussão caiu