[caiu] Amazon sa-east-1b (SP) down

Bruno Araújo bjaraujo em gmail.com
Sábado Dezembro 21 09:01:57 BRST 2013


Em 20/12/2013, às 23:05, Rubens Kuhl <rubensk em gmail.com> escreveu:

> 2013/12/18 Thiago Martins Bueno <tbueno em dualtec.com.br>
> 
>> Problema de energia no DC Terremark, onde a Amazon tem um ambiente
>> hospedado, deve ser isso.
>> 
> 
> http://aws.amazon.com/message/656481/
> 
> Summary of the December 17th event in the South America Region (SA-EAST-1)
> 
> December 20, 2013
> 
> We want to give you some additional insight into the event that impacted a
> single Availability Zone in the South America Region (SA-EAST-1). On
> December 17th at 10:05PM PST, the impacted Availability Zone lost utility
> power due to a fault that happened at the substation of the local utility
> provider. The impacted Availability Zone automatically switched over to run
> on generator power when utility power was lost. Availability Zones are
> built with multiple layers of redundancy, and are designed to continue to
> operate even when multiple components fail at the same time. In this
> particular case when we experienced a loss in utility power, the load
> switched over to our backup generators as designed. During that failover a
> breaker in front of one of the generators opened, rendering that generator
> unavailable. Shortly thereafter, a second generator independently failed
> due to a mechanical issue. The loss of utility power combined with the
> unavailability of two additional generators meant that there was more load
> in the facility than the remaining healthy generators could handle. With
> more load on them than they could support, the remaining healthy generators
> also shut down. Our facilities team immediately began working to bring the
> failed generators back online. This facility uses an automated control
> system which allows it to aggregate power from multiple generators
> together. The team experienced several additional setbacks when trying to
> bring the power infrastructure back online, and eventually identified that
> the automated control system wasn’t functioning properly. Once the team
> identified the issue, they bypassed the automated control system and began
> the slow process of manually bringing the generators online. Once there was
> sufficient generator capacity to fully support the facility, all of the
> impacted instances were recovered. While we have not completed forensics on
> the breaker opening and the generator mechanical failure, we find the
> double failure to be extremely unusual, and are deeply reviewing the
> operational records of the failed components.
> 
> Instances in the second Availability Zone in the Region did not experience
> any power related issues, however instances in both Availability Zones did
> experience a total of 20 minutes of degraded network connectivity due to an
> error that was made in bringing our network back online once power was
> restored. As part of the recovery process, a network technician brought a
> network device up manually in the power-impacted Availability Zone and
> introduced a bad configuration. That misconfiguration led to the device
> advertising an invalid network route when it came back online, which
> resulted in degraded Internet connectivity for both SA-EAST-1 Availability
> Zones. Once we understood the issue, we took the device out of service and
> full connectivity to the Region was restored. After power and networking
> were fully restored to the facility, all of our services were brought back
> online and full customer access was restored.
> 
> We apologize for any difficulty this event may have caused you. We
> appreciate how critical our services are to our customers, and will take
> steps to ensure this Availability Zone in Brazil is better able to
> withstand a similar power failure in the future.
> 
> Sincerely,
> The AWS Team
> 
> ------------------------------
> 
> Gostaríamos de compartilhar detalhes sobre o evento que impactou uma única
> Zona de Disponibilidade na região South America (SA-EAST-1). Em 17 de
> Dezembro às 22:05, horário do Pacífico (Estados Unidos) - 4:05 horário
> oficial do Brasil do dia 18, a Zona de Disponibilidade impactada teve
> interrupção do fornecimento de energia elétrica devido a uma falha que
> ocorreu na subestação da concessionária local. Zonas de Disponibilidade são
> construídas com múltiplas camadas de redundância e projetadas para
> continuar a operar mesmo quando múltiplos componentes falham num mesmo
> momento. Neste caso em particular onde enfrentamos interrupção de energia,
> a carga foi transferida para os nossos geradores de contingência conforme
> projetado. Durante essa transição um disjuntor de um dos geradores
> disparou, tornando aquele gerador indisponível. Instantes depois, um
> segundo gerador apresentou falha mecânica, acontecimento esse independente
> do outro ocorrido. A interrupção de energia combinada com a
> indisponibilidade de dois geradores levou a uma situação onde havia mais
> carga nas instalações do que a capacidade que os geradores remanescente em
> estado operacional poderiam suportar. Com mais carga do que poderiam
> suportar, esses geradores remanescentes também desligaram. Nossos times
> presentes nas instalações imediatamente iniciaram os trabalhos para religar
> os geradores que falharam. Esta instalação utiliza um sistema automatizado
> de controle que o permite agregar energia de múltiplos geradores. O time
> enfrentou vários desafios adicionais quando tentando restabelecer a
> infraestrutura de alimentação de energia, e eventualmente identificou que
> esse sistema não estava funcionando apropriadamente. Uma vez identificada a
> questão, eles transpassaram esse sistema e iniciaram um lento processo
> manual de religar os geradores. Logo que houve capacidade suficiente dos
> geradores para suportar de forma completa a instalação, todas as instâncias
> impactadas foram recuperadas. Ainda não completamos a análise forênsica do
> disparo do disjuntor e da falha mecânica do gerador, entendemos essa dupla
> falha como algo extremamente não usual, e estamos reavaliando profundamente
> os registros operacionais dos componentes que falharam.
> 
> Instâncias na segunda Zona de Disponibilidade na Região não enfrentaram
> qualquer questão relacionada a energia, entretanto instâncias em ambas as
> Zonas de Disponibilidade enfrentaram um total de 20 minutos de
> conectividade de rede degradada devido a um erro que ocorreu ao trazer
> nossa rede novamente ao ar logo que a energia foi restaurada. Como parte do
> processo de recuperação, um técnico de redes religou um dispositivo de rede
> manualmente na Zona de Disponibilidade impactada por alimentação de energia
> e introduziu uma configuração errônea. Tal configuração levou ao anúnci de
> uma rota de rede inválida por esse dispositivo quando o mesmo foi religado,
> o que resultou em conectividade de Internet degradada para ambas as Zonas
> de Disponibilidade de SA-EAST-1. Uma vez entendida a situação, tiramos o
> dispositivo de serviço e a conectividade a Região foi completamente
> restaurada. Após a completa restauração de energia e rede da instalação,
> todos os nossos serviços foram postos novamente no ar e o acesso de
> clientes foi completamente restaurado.
> 
> Pedimos desculpas por quaisquer dificuldades que este evento possa tê-lo
> causado. Apreciamos o quão crítico nossos serviços são para nossos
> clientes, e tomaremos medidas para garantir que esta Zona de
> Disponibilidade no Brasil apresenta melhor capacidade de tolerar uma falha
> de energia similar no futuro.
> _______________________________________________
> caiu mailing list
> caiu em eng.registro.br
> https://eng.registro.br/mailman/listinfo/caiu
> 
> 
> --> PARA SAIR DA LISTA SIGA AS INSTRUÇÕES em:
> 
> https://eng.registro.br/mailman/options/caiu



Dupla falha, duplo rompimento. Excelência no sincronismo desses eventos; qual é a meta, omni?

_______________
Bruno Araújo

Antes de imprimir, verifique se tem papel e tinta suficiente na impressora.


More information about the caiu mailing list