[caiu] Amazon sa-east-1b (SP) down

Rubens Kuhl rubensk em gmail.com
Sábado Dezembro 21 00:05:54 BRST 2013


2013/12/18 Thiago Martins Bueno <tbueno at dualtec.com.br>

> Problema de energia no DC Terremark, onde a Amazon tem um ambiente
> hospedado, deve ser isso.
>

http://aws.amazon.com/message/656481/

Summary of the December 17th event in the South America Region (SA-EAST-1)

December 20, 2013

We want to give you some additional insight into the event that impacted a
single Availability Zone in the South America Region (SA-EAST-1). On
December 17th at 10:05PM PST, the impacted Availability Zone lost utility
power due to a fault that happened at the substation of the local utility
provider. The impacted Availability Zone automatically switched over to run
on generator power when utility power was lost. Availability Zones are
built with multiple layers of redundancy, and are designed to continue to
operate even when multiple components fail at the same time. In this
particular case when we experienced a loss in utility power, the load
switched over to our backup generators as designed. During that failover a
breaker in front of one of the generators opened, rendering that generator
unavailable. Shortly thereafter, a second generator independently failed
due to a mechanical issue. The loss of utility power combined with the
unavailability of two additional generators meant that there was more load
in the facility than the remaining healthy generators could handle. With
more load on them than they could support, the remaining healthy generators
also shut down. Our facilities team immediately began working to bring the
failed generators back online. This facility uses an automated control
system which allows it to aggregate power from multiple generators
together. The team experienced several additional setbacks when trying to
bring the power infrastructure back online, and eventually identified that
the automated control system wasn’t functioning properly. Once the team
identified the issue, they bypassed the automated control system and began
the slow process of manually bringing the generators online. Once there was
sufficient generator capacity to fully support the facility, all of the
impacted instances were recovered. While we have not completed forensics on
the breaker opening and the generator mechanical failure, we find the
double failure to be extremely unusual, and are deeply reviewing the
operational records of the failed components.

Instances in the second Availability Zone in the Region did not experience
any power related issues, however instances in both Availability Zones did
experience a total of 20 minutes of degraded network connectivity due to an
error that was made in bringing our network back online once power was
restored. As part of the recovery process, a network technician brought a
network device up manually in the power-impacted Availability Zone and
introduced a bad configuration. That misconfiguration led to the device
advertising an invalid network route when it came back online, which
resulted in degraded Internet connectivity for both SA-EAST-1 Availability
Zones. Once we understood the issue, we took the device out of service and
full connectivity to the Region was restored. After power and networking
were fully restored to the facility, all of our services were brought back
online and full customer access was restored.

We apologize for any difficulty this event may have caused you. We
appreciate how critical our services are to our customers, and will take
steps to ensure this Availability Zone in Brazil is better able to
withstand a similar power failure in the future.

Sincerely,
The AWS Team

------------------------------

Gostaríamos de compartilhar detalhes sobre o evento que impactou uma única
Zona de Disponibilidade na região South America (SA-EAST-1). Em 17 de
Dezembro às 22:05, horário do Pacífico (Estados Unidos) - 4:05 horário
oficial do Brasil do dia 18, a Zona de Disponibilidade impactada teve
interrupção do fornecimento de energia elétrica devido a uma falha que
ocorreu na subestação da concessionária local. Zonas de Disponibilidade são
construídas com múltiplas camadas de redundância e projetadas para
continuar a operar mesmo quando múltiplos componentes falham num mesmo
momento. Neste caso em particular onde enfrentamos interrupção de energia,
a carga foi transferida para os nossos geradores de contingência conforme
projetado. Durante essa transição um disjuntor de um dos geradores
disparou, tornando aquele gerador indisponível. Instantes depois, um
segundo gerador apresentou falha mecânica, acontecimento esse independente
do outro ocorrido. A interrupção de energia combinada com a
indisponibilidade de dois geradores levou a uma situação onde havia mais
carga nas instalações do que a capacidade que os geradores remanescente em
estado operacional poderiam suportar. Com mais carga do que poderiam
suportar, esses geradores remanescentes também desligaram. Nossos times
presentes nas instalações imediatamente iniciaram os trabalhos para religar
os geradores que falharam. Esta instalação utiliza um sistema automatizado
de controle que o permite agregar energia de múltiplos geradores. O time
enfrentou vários desafios adicionais quando tentando restabelecer a
infraestrutura de alimentação de energia, e eventualmente identificou que
esse sistema não estava funcionando apropriadamente. Uma vez identificada a
questão, eles transpassaram esse sistema e iniciaram um lento processo
manual de religar os geradores. Logo que houve capacidade suficiente dos
geradores para suportar de forma completa a instalação, todas as instâncias
impactadas foram recuperadas. Ainda não completamos a análise forênsica do
disparo do disjuntor e da falha mecânica do gerador, entendemos essa dupla
falha como algo extremamente não usual, e estamos reavaliando profundamente
os registros operacionais dos componentes que falharam.

Instâncias na segunda Zona de Disponibilidade na Região não enfrentaram
qualquer questão relacionada a energia, entretanto instâncias em ambas as
Zonas de Disponibilidade enfrentaram um total de 20 minutos de
conectividade de rede degradada devido a um erro que ocorreu ao trazer
nossa rede novamente ao ar logo que a energia foi restaurada. Como parte do
processo de recuperação, um técnico de redes religou um dispositivo de rede
manualmente na Zona de Disponibilidade impactada por alimentação de energia
e introduziu uma configuração errônea. Tal configuração levou ao anúnci de
uma rota de rede inválida por esse dispositivo quando o mesmo foi religado,
o que resultou em conectividade de Internet degradada para ambas as Zonas
de Disponibilidade de SA-EAST-1. Uma vez entendida a situação, tiramos o
dispositivo de serviço e a conectividade a Região foi completamente
restaurada. Após a completa restauração de energia e rede da instalação,
todos os nossos serviços foram postos novamente no ar e o acesso de
clientes foi completamente restaurado.

Pedimos desculpas por quaisquer dificuldades que este evento possa tê-lo
causado. Apreciamos o quão crítico nossos serviços são para nossos
clientes, e tomaremos medidas para garantir que esta Zona de
Disponibilidade no Brasil apresenta melhor capacidade de tolerar uma falha
de energia similar no futuro.


More information about the caiu mailing list