[caiu] Amazon sa-east-1b (SP) down

Alexandre J. Correa (Onda) alexandre em onda.net.br
Sábado Dezembro 21 09:50:05 BRST 2013


o velho ditado, que dois raios não caem no mesmo local.. foi quebrado !!


Em 21/12/2013 09:01, Bruno Araújo escreveu:
> Em 20/12/2013, às 23:05, Rubens Kuhl <rubensk at gmail.com> escreveu:
>
>> 2013/12/18 Thiago Martins Bueno <tbueno at dualtec.com.br>
>>
>>> Problema de energia no DC Terremark, onde a Amazon tem um ambiente
>>> hospedado, deve ser isso.
>>>
>> http://aws.amazon.com/message/656481/
>>
>> Summary of the December 17th event in the South America Region (SA-EAST-1)
>>
>> December 20, 2013
>>
>> We want to give you some additional insight into the event that impacted a
>> single Availability Zone in the South America Region (SA-EAST-1). On
>> December 17th at 10:05PM PST, the impacted Availability Zone lost utility
>> power due to a fault that happened at the substation of the local utility
>> provider. The impacted Availability Zone automatically switched over to run
>> on generator power when utility power was lost. Availability Zones are
>> built with multiple layers of redundancy, and are designed to continue to
>> operate even when multiple components fail at the same time. In this
>> particular case when we experienced a loss in utility power, the load
>> switched over to our backup generators as designed. During that failover a
>> breaker in front of one of the generators opened, rendering that generator
>> unavailable. Shortly thereafter, a second generator independently failed
>> due to a mechanical issue. The loss of utility power combined with the
>> unavailability of two additional generators meant that there was more load
>> in the facility than the remaining healthy generators could handle. With
>> more load on them than they could support, the remaining healthy generators
>> also shut down. Our facilities team immediately began working to bring the
>> failed generators back online. This facility uses an automated control
>> system which allows it to aggregate power from multiple generators
>> together. The team experienced several additional setbacks when trying to
>> bring the power infrastructure back online, and eventually identified that
>> the automated control system wasn’t functioning properly. Once the team
>> identified the issue, they bypassed the automated control system and began
>> the slow process of manually bringing the generators online. Once there was
>> sufficient generator capacity to fully support the facility, all of the
>> impacted instances were recovered. While we have not completed forensics on
>> the breaker opening and the generator mechanical failure, we find the
>> double failure to be extremely unusual, and are deeply reviewing the
>> operational records of the failed components.
>>
>> Instances in the second Availability Zone in the Region did not experience
>> any power related issues, however instances in both Availability Zones did
>> experience a total of 20 minutes of degraded network connectivity due to an
>> error that was made in bringing our network back online once power was
>> restored. As part of the recovery process, a network technician brought a
>> network device up manually in the power-impacted Availability Zone and
>> introduced a bad configuration. That misconfiguration led to the device
>> advertising an invalid network route when it came back online, which
>> resulted in degraded Internet connectivity for both SA-EAST-1 Availability
>> Zones. Once we understood the issue, we took the device out of service and
>> full connectivity to the Region was restored. After power and networking
>> were fully restored to the facility, all of our services were brought back
>> online and full customer access was restored.
>>
>> We apologize for any difficulty this event may have caused you. We
>> appreciate how critical our services are to our customers, and will take
>> steps to ensure this Availability Zone in Brazil is better able to
>> withstand a similar power failure in the future.
>>
>> Sincerely,
>> The AWS Team
>>
>> ------------------------------
>>
>> Gostaríamos de compartilhar detalhes sobre o evento que impactou uma única
>> Zona de Disponibilidade na região South America (SA-EAST-1). Em 17 de
>> Dezembro às 22:05, horário do Pacífico (Estados Unidos) - 4:05 horário
>> oficial do Brasil do dia 18, a Zona de Disponibilidade impactada teve
>> interrupção do fornecimento de energia elétrica devido a uma falha que
>> ocorreu na subestação da concessionária local. Zonas de Disponibilidade são
>> construídas com múltiplas camadas de redundância e projetadas para
>> continuar a operar mesmo quando múltiplos componentes falham num mesmo
>> momento. Neste caso em particular onde enfrentamos interrupção de energia,
>> a carga foi transferida para os nossos geradores de contingência conforme
>> projetado. Durante essa transição um disjuntor de um dos geradores
>> disparou, tornando aquele gerador indisponível. Instantes depois, um
>> segundo gerador apresentou falha mecânica, acontecimento esse independente
>> do outro ocorrido. A interrupção de energia combinada com a
>> indisponibilidade de dois geradores levou a uma situação onde havia mais
>> carga nas instalações do que a capacidade que os geradores remanescente em
>> estado operacional poderiam suportar. Com mais carga do que poderiam
>> suportar, esses geradores remanescentes também desligaram. Nossos times
>> presentes nas instalações imediatamente iniciaram os trabalhos para religar
>> os geradores que falharam. Esta instalação utiliza um sistema automatizado
>> de controle que o permite agregar energia de múltiplos geradores. O time
>> enfrentou vários desafios adicionais quando tentando restabelecer a
>> infraestrutura de alimentação de energia, e eventualmente identificou que
>> esse sistema não estava funcionando apropriadamente. Uma vez identificada a
>> questão, eles transpassaram esse sistema e iniciaram um lento processo
>> manual de religar os geradores. Logo que houve capacidade suficiente dos
>> geradores para suportar de forma completa a instalação, todas as instâncias
>> impactadas foram recuperadas. Ainda não completamos a análise forênsica do
>> disparo do disjuntor e da falha mecânica do gerador, entendemos essa dupla
>> falha como algo extremamente não usual, e estamos reavaliando profundamente
>> os registros operacionais dos componentes que falharam.
>>
>> Instâncias na segunda Zona de Disponibilidade na Região não enfrentaram
>> qualquer questão relacionada a energia, entretanto instâncias em ambas as
>> Zonas de Disponibilidade enfrentaram um total de 20 minutos de
>> conectividade de rede degradada devido a um erro que ocorreu ao trazer
>> nossa rede novamente ao ar logo que a energia foi restaurada. Como parte do
>> processo de recuperação, um técnico de redes religou um dispositivo de rede
>> manualmente na Zona de Disponibilidade impactada por alimentação de energia
>> e introduziu uma configuração errônea. Tal configuração levou ao anúnci de
>> uma rota de rede inválida por esse dispositivo quando o mesmo foi religado,
>> o que resultou em conectividade de Internet degradada para ambas as Zonas
>> de Disponibilidade de SA-EAST-1. Uma vez entendida a situação, tiramos o
>> dispositivo de serviço e a conectividade a Região foi completamente
>> restaurada. Após a completa restauração de energia e rede da instalação,
>> todos os nossos serviços foram postos novamente no ar e o acesso de
>> clientes foi completamente restaurado.
>>
>> Pedimos desculpas por quaisquer dificuldades que este evento possa tê-lo
>> causado. Apreciamos o quão crítico nossos serviços são para nossos
>> clientes, e tomaremos medidas para garantir que esta Zona de
>> Disponibilidade no Brasil apresenta melhor capacidade de tolerar uma falha
>> de energia similar no futuro.
>> _______________________________________________
>> caiu mailing list
>> caiu at eng.registro.br
>> https://eng.registro.br/mailman/listinfo/caiu
>>
>>
>> --> PARA SAIR DA LISTA SIGA AS INSTRUÇÕES em:
>>
>> https://eng.registro.br/mailman/options/caiu
>
>
> Dupla falha, duplo rompimento. Excelência no sincronismo desses eventos; qual é a meta, omni?
>
> _______________
> Bruno Araújo
>
> Antes de imprimir, verifique se tem papel e tinta suficiente na impressora.
> _______________________________________________
> caiu mailing list
> caiu at eng.registro.br
> https://eng.registro.br/mailman/listinfo/caiu
>
>
> --> PARA SAIR DA LISTA SIGA AS INSTRUÇÕES em:
>
> https://eng.registro.br/mailman/options/caiu


-- 
Sds.

Alexandre Jeronimo Correa
Sócio-Administrador

Office: +55 34 3351 3077

Onda Internet
www.onda.net.br



More information about the caiu mailing list