[caiu] Amazon sa-east-1b (SP) down

Anselmo [Webgenium] anselmo em webgenium.com.br
Sábado Dezembro 21 09:12:27 BRST 2013


Dentro da ciência da Administração (ainda é discutível de adm é ciência ou
não) existem duas teorias para explicar acidentes (como esse da amazon)

NAT: diz que os acidentes são normais e não tem nada que você possa fazer
para evitar, tudo é uma questão de tempo

HRO: Você consegue evitar os acidentes incluindo elementos que tornem a
organização menos suscetível a erros de tal forma que ela seja livre de
acidentes

O grande problema da HRO é que para cada novo instrumento de prevenção de
falhar você tem um novo componente que pode falhar em potencial. Grandes
acidentes da humanidade como chernobyl e bopal foram causados devido a
componentes de segurança que falharam.

Vendo tudo o que ocorre aqui na lista vejo que a NAT explica muito mais
pois mesmo com todo o recurso e investimento que as grandes fazem os
acidentes acontecem e continuam a acontecer pois nossos sistemas são
sociotécnicos e complexos. Quando não é o link que se rompe é o marquinho
que esqueceu de configurar alguma coisa no roteador de borda.

Não tem a ver com a lista mas resolvi compartilhar pois realmente fico
preocupado com estas situações.




2013/12/21 Bruno Araújo <bjaraujo em gmail.com>

> Em 20/12/2013, às 23:05, Rubens Kuhl <rubensk em gmail.com> escreveu:
>
> > 2013/12/18 Thiago Martins Bueno <tbueno em dualtec.com.br>
> >
> >> Problema de energia no DC Terremark, onde a Amazon tem um ambiente
> >> hospedado, deve ser isso.
> >>
> >
> > http://aws.amazon.com/message/656481/
> >
> > Summary of the December 17th event in the South America Region
> (SA-EAST-1)
> >
> > December 20, 2013
> >
> > We want to give you some additional insight into the event that impacted
> a
> > single Availability Zone in the South America Region (SA-EAST-1). On
> > December 17th at 10:05PM PST, the impacted Availability Zone lost utility
> > power due to a fault that happened at the substation of the local utility
> > provider. The impacted Availability Zone automatically switched over to
> run
> > on generator power when utility power was lost. Availability Zones are
> > built with multiple layers of redundancy, and are designed to continue to
> > operate even when multiple components fail at the same time. In this
> > particular case when we experienced a loss in utility power, the load
> > switched over to our backup generators as designed. During that failover
> a
> > breaker in front of one of the generators opened, rendering that
> generator
> > unavailable. Shortly thereafter, a second generator independently failed
> > due to a mechanical issue. The loss of utility power combined with the
> > unavailability of two additional generators meant that there was more
> load
> > in the facility than the remaining healthy generators could handle. With
> > more load on them than they could support, the remaining healthy
> generators
> > also shut down. Our facilities team immediately began working to bring
> the
> > failed generators back online. This facility uses an automated control
> > system which allows it to aggregate power from multiple generators
> > together. The team experienced several additional setbacks when trying to
> > bring the power infrastructure back online, and eventually identified
> that
> > the automated control system wasn’t functioning properly. Once the team
> > identified the issue, they bypassed the automated control system and
> began
> > the slow process of manually bringing the generators online. Once there
> was
> > sufficient generator capacity to fully support the facility, all of the
> > impacted instances were recovered. While we have not completed forensics
> on
> > the breaker opening and the generator mechanical failure, we find the
> > double failure to be extremely unusual, and are deeply reviewing the
> > operational records of the failed components.
> >
> > Instances in the second Availability Zone in the Region did not
> experience
> > any power related issues, however instances in both Availability Zones
> did
> > experience a total of 20 minutes of degraded network connectivity due to
> an
> > error that was made in bringing our network back online once power was
> > restored. As part of the recovery process, a network technician brought a
> > network device up manually in the power-impacted Availability Zone and
> > introduced a bad configuration. That misconfiguration led to the device
> > advertising an invalid network route when it came back online, which
> > resulted in degraded Internet connectivity for both SA-EAST-1
> Availability
> > Zones. Once we understood the issue, we took the device out of service
> and
> > full connectivity to the Region was restored. After power and networking
> > were fully restored to the facility, all of our services were brought
> back
> > online and full customer access was restored.
> >
> > We apologize for any difficulty this event may have caused you. We
> > appreciate how critical our services are to our customers, and will take
> > steps to ensure this Availability Zone in Brazil is better able to
> > withstand a similar power failure in the future.
> >
> > Sincerely,
> > The AWS Team
> >
> > ------------------------------
> >
> > Gostaríamos de compartilhar detalhes sobre o evento que impactou uma
> única
> > Zona de Disponibilidade na região South America (SA-EAST-1). Em 17 de
> > Dezembro às 22:05, horário do Pacífico (Estados Unidos) - 4:05 horário
> > oficial do Brasil do dia 18, a Zona de Disponibilidade impactada teve
> > interrupção do fornecimento de energia elétrica devido a uma falha que
> > ocorreu na subestação da concessionária local. Zonas de Disponibilidade
> são
> > construídas com múltiplas camadas de redundância e projetadas para
> > continuar a operar mesmo quando múltiplos componentes falham num mesmo
> > momento. Neste caso em particular onde enfrentamos interrupção de
> energia,
> > a carga foi transferida para os nossos geradores de contingência conforme
> > projetado. Durante essa transição um disjuntor de um dos geradores
> > disparou, tornando aquele gerador indisponível. Instantes depois, um
> > segundo gerador apresentou falha mecânica, acontecimento esse
> independente
> > do outro ocorrido. A interrupção de energia combinada com a
> > indisponibilidade de dois geradores levou a uma situação onde havia mais
> > carga nas instalações do que a capacidade que os geradores remanescente
> em
> > estado operacional poderiam suportar. Com mais carga do que poderiam
> > suportar, esses geradores remanescentes também desligaram. Nossos times
> > presentes nas instalações imediatamente iniciaram os trabalhos para
> religar
> > os geradores que falharam. Esta instalação utiliza um sistema
> automatizado
> > de controle que o permite agregar energia de múltiplos geradores. O time
> > enfrentou vários desafios adicionais quando tentando restabelecer a
> > infraestrutura de alimentação de energia, e eventualmente identificou que
> > esse sistema não estava funcionando apropriadamente. Uma vez
> identificada a
> > questão, eles transpassaram esse sistema e iniciaram um lento processo
> > manual de religar os geradores. Logo que houve capacidade suficiente dos
> > geradores para suportar de forma completa a instalação, todas as
> instâncias
> > impactadas foram recuperadas. Ainda não completamos a análise forênsica
> do
> > disparo do disjuntor e da falha mecânica do gerador, entendemos essa
> dupla
> > falha como algo extremamente não usual, e estamos reavaliando
> profundamente
> > os registros operacionais dos componentes que falharam.
> >
> > Instâncias na segunda Zona de Disponibilidade na Região não enfrentaram
> > qualquer questão relacionada a energia, entretanto instâncias em ambas as
> > Zonas de Disponibilidade enfrentaram um total de 20 minutos de
> > conectividade de rede degradada devido a um erro que ocorreu ao trazer
> > nossa rede novamente ao ar logo que a energia foi restaurada. Como parte
> do
> > processo de recuperação, um técnico de redes religou um dispositivo de
> rede
> > manualmente na Zona de Disponibilidade impactada por alimentação de
> energia
> > e introduziu uma configuração errônea. Tal configuração levou ao anúnci
> de
> > uma rota de rede inválida por esse dispositivo quando o mesmo foi
> religado,
> > o que resultou em conectividade de Internet degradada para ambas as Zonas
> > de Disponibilidade de SA-EAST-1. Uma vez entendida a situação, tiramos o
> > dispositivo de serviço e a conectividade a Região foi completamente
> > restaurada. Após a completa restauração de energia e rede da instalação,
> > todos os nossos serviços foram postos novamente no ar e o acesso de
> > clientes foi completamente restaurado.
> >
> > Pedimos desculpas por quaisquer dificuldades que este evento possa tê-lo
> > causado. Apreciamos o quão crítico nossos serviços são para nossos
> > clientes, e tomaremos medidas para garantir que esta Zona de
> > Disponibilidade no Brasil apresenta melhor capacidade de tolerar uma
> falha
> > de energia similar no futuro.
> > _______________________________________________
> > caiu mailing list
> > caiu em eng.registro.br
> > https://eng.registro.br/mailman/listinfo/caiu
> >
> >
> > --> PARA SAIR DA LISTA SIGA AS INSTRUÇÕES em:
> >
> > https://eng.registro.br/mailman/options/caiu
>
>
>
> Dupla falha, duplo rompimento. Excelência no sincronismo desses eventos;
> qual é a meta, omni?
>
> _______________
> Bruno Araújo
>
> Antes de imprimir, verifique se tem papel e tinta suficiente na impressora.
> _______________________________________________
> caiu mailing list
> caiu em eng.registro.br
> https://eng.registro.br/mailman/listinfo/caiu
>
>
> --> PARA SAIR DA LISTA SIGA AS INSTRUÇÕES em:
>
> https://eng.registro.br/mailman/options/caiu
>



-- 
*Grande Abraço e Sucesso*


More information about the caiu mailing list