[caiu] Amazon sa-east-1b (SP) down

Emerson Henning emerson em henning.com.br
Sábado Dezembro 21 11:41:53 BRST 2013


Comunicado da amazon sobre o ocorrido.
https://aws.amazon.com/message/656481/
Em 21/12/2013 09:50, "Alexandre J. Correa (Onda)" <alexandre em onda.net.br>
escreveu:

> o velho ditado, que dois raios não caem no mesmo local.. foi quebrado !!
>
>
> Em 21/12/2013 09:01, Bruno Araújo escreveu:
>
>> Em 20/12/2013, às 23:05, Rubens Kuhl <rubensk em gmail.com> escreveu:
>>
>>  2013/12/18 Thiago Martins Bueno <tbueno em dualtec.com.br>
>>>
>>>  Problema de energia no DC Terremark, onde a Amazon tem um ambiente
>>>> hospedado, deve ser isso.
>>>>
>>>>  http://aws.amazon.com/message/656481/
>>>
>>> Summary of the December 17th event in the South America Region
>>> (SA-EAST-1)
>>>
>>> December 20, 2013
>>>
>>> We want to give you some additional insight into the event that impacted
>>> a
>>> single Availability Zone in the South America Region (SA-EAST-1). On
>>> December 17th at 10:05PM PST, the impacted Availability Zone lost utility
>>> power due to a fault that happened at the substation of the local utility
>>> provider. The impacted Availability Zone automatically switched over to
>>> run
>>> on generator power when utility power was lost. Availability Zones are
>>> built with multiple layers of redundancy, and are designed to continue to
>>> operate even when multiple components fail at the same time. In this
>>> particular case when we experienced a loss in utility power, the load
>>> switched over to our backup generators as designed. During that failover
>>> a
>>> breaker in front of one of the generators opened, rendering that
>>> generator
>>> unavailable. Shortly thereafter, a second generator independently failed
>>> due to a mechanical issue. The loss of utility power combined with the
>>> unavailability of two additional generators meant that there was more
>>> load
>>> in the facility than the remaining healthy generators could handle. With
>>> more load on them than they could support, the remaining healthy
>>> generators
>>> also shut down. Our facilities team immediately began working to bring
>>> the
>>> failed generators back online. This facility uses an automated control
>>> system which allows it to aggregate power from multiple generators
>>> together. The team experienced several additional setbacks when trying to
>>> bring the power infrastructure back online, and eventually identified
>>> that
>>> the automated control system wasn’t functioning properly. Once the team
>>> identified the issue, they bypassed the automated control system and
>>> began
>>> the slow process of manually bringing the generators online. Once there
>>> was
>>> sufficient generator capacity to fully support the facility, all of the
>>> impacted instances were recovered. While we have not completed forensics
>>> on
>>> the breaker opening and the generator mechanical failure, we find the
>>> double failure to be extremely unusual, and are deeply reviewing the
>>> operational records of the failed components.
>>>
>>> Instances in the second Availability Zone in the Region did not
>>> experience
>>> any power related issues, however instances in both Availability Zones
>>> did
>>> experience a total of 20 minutes of degraded network connectivity due to
>>> an
>>> error that was made in bringing our network back online once power was
>>> restored. As part of the recovery process, a network technician brought a
>>> network device up manually in the power-impacted Availability Zone and
>>> introduced a bad configuration. That misconfiguration led to the device
>>> advertising an invalid network route when it came back online, which
>>> resulted in degraded Internet connectivity for both SA-EAST-1
>>> Availability
>>> Zones. Once we understood the issue, we took the device out of service
>>> and
>>> full connectivity to the Region was restored. After power and networking
>>> were fully restored to the facility, all of our services were brought
>>> back
>>> online and full customer access was restored.
>>>
>>> We apologize for any difficulty this event may have caused you. We
>>> appreciate how critical our services are to our customers, and will take
>>> steps to ensure this Availability Zone in Brazil is better able to
>>> withstand a similar power failure in the future.
>>>
>>> Sincerely,
>>> The AWS Team
>>>
>>> ------------------------------
>>>
>>> Gostaríamos de compartilhar detalhes sobre o evento que impactou uma
>>> única
>>> Zona de Disponibilidade na região South America (SA-EAST-1). Em 17 de
>>> Dezembro às 22:05, horário do Pacífico (Estados Unidos) - 4:05 horário
>>> oficial do Brasil do dia 18, a Zona de Disponibilidade impactada teve
>>> interrupção do fornecimento de energia elétrica devido a uma falha que
>>> ocorreu na subestação da concessionária local. Zonas de Disponibilidade
>>> são
>>> construídas com múltiplas camadas de redundância e projetadas para
>>> continuar a operar mesmo quando múltiplos componentes falham num mesmo
>>> momento. Neste caso em particular onde enfrentamos interrupção de
>>> energia,
>>> a carga foi transferida para os nossos geradores de contingência conforme
>>> projetado. Durante essa transição um disjuntor de um dos geradores
>>> disparou, tornando aquele gerador indisponível. Instantes depois, um
>>> segundo gerador apresentou falha mecânica, acontecimento esse
>>> independente
>>> do outro ocorrido. A interrupção de energia combinada com a
>>> indisponibilidade de dois geradores levou a uma situação onde havia mais
>>> carga nas instalações do que a capacidade que os geradores remanescente
>>> em
>>> estado operacional poderiam suportar. Com mais carga do que poderiam
>>> suportar, esses geradores remanescentes também desligaram. Nossos times
>>> presentes nas instalações imediatamente iniciaram os trabalhos para
>>> religar
>>> os geradores que falharam. Esta instalação utiliza um sistema
>>> automatizado
>>> de controle que o permite agregar energia de múltiplos geradores. O time
>>> enfrentou vários desafios adicionais quando tentando restabelecer a
>>> infraestrutura de alimentação de energia, e eventualmente identificou que
>>> esse sistema não estava funcionando apropriadamente. Uma vez
>>> identificada a
>>> questão, eles transpassaram esse sistema e iniciaram um lento processo
>>> manual de religar os geradores. Logo que houve capacidade suficiente dos
>>> geradores para suportar de forma completa a instalação, todas as
>>> instâncias
>>> impactadas foram recuperadas. Ainda não completamos a análise forênsica
>>> do
>>> disparo do disjuntor e da falha mecânica do gerador, entendemos essa
>>> dupla
>>> falha como algo extremamente não usual, e estamos reavaliando
>>> profundamente
>>> os registros operacionais dos componentes que falharam.
>>>
>>> Instâncias na segunda Zona de Disponibilidade na Região não enfrentaram
>>> qualquer questão relacionada a energia, entretanto instâncias em ambas as
>>> Zonas de Disponibilidade enfrentaram um total de 20 minutos de
>>> conectividade de rede degradada devido a um erro que ocorreu ao trazer
>>> nossa rede novamente ao ar logo que a energia foi restaurada. Como parte
>>> do
>>> processo de recuperação, um técnico de redes religou um dispositivo de
>>> rede
>>> manualmente na Zona de Disponibilidade impactada por alimentação de
>>> energia
>>> e introduziu uma configuração errônea. Tal configuração levou ao anúnci
>>> de
>>> uma rota de rede inválida por esse dispositivo quando o mesmo foi
>>> religado,
>>> o que resultou em conectividade de Internet degradada para ambas as Zonas
>>> de Disponibilidade de SA-EAST-1. Uma vez entendida a situação, tiramos o
>>> dispositivo de serviço e a conectividade a Região foi completamente
>>> restaurada. Após a completa restauração de energia e rede da instalação,
>>> todos os nossos serviços foram postos novamente no ar e o acesso de
>>> clientes foi completamente restaurado.
>>>
>>> Pedimos desculpas por quaisquer dificuldades que este evento possa tê-lo
>>> causado. Apreciamos o quão crítico nossos serviços são para nossos
>>> clientes, e tomaremos medidas para garantir que esta Zona de
>>> Disponibilidade no Brasil apresenta melhor capacidade de tolerar uma
>>> falha
>>> de energia similar no futuro.
>>> _______________________________________________
>>> caiu mailing list
>>> caiu em eng.registro.br
>>> https://eng.registro.br/mailman/listinfo/caiu
>>>
>>>
>>> --> PARA SAIR DA LISTA SIGA AS INSTRUÇÕES em:
>>>
>>> https://eng.registro.br/mailman/options/caiu
>>>
>>
>>
>> Dupla falha, duplo rompimento. Excelência no sincronismo desses eventos;
>> qual é a meta, omni?
>>
>> _______________
>> Bruno Araújo
>>
>> Antes de imprimir, verifique se tem papel e tinta suficiente na
>> impressora.
>> _______________________________________________
>> caiu mailing list
>> caiu em eng.registro.br
>> https://eng.registro.br/mailman/listinfo/caiu
>>
>>
>> --> PARA SAIR DA LISTA SIGA AS INSTRUÇÕES em:
>>
>> https://eng.registro.br/mailman/options/caiu
>>
>
>
> --
> Sds.
>
> Alexandre Jeronimo Correa
> Sócio-Administrador
>
> Office: +55 34 3351 3077
>
> Onda Internet
> www.onda.net.br
>
> _______________________________________________
> caiu mailing list
> caiu em eng.registro.br
> https://eng.registro.br/mailman/listinfo/caiu
>
>
> --> PARA SAIR DA LISTA SIGA AS INSTRUÇÕES em:
>
> https://eng.registro.br/mailman/options/caiu
>


More information about the caiu mailing list