[caiu] Amazon sa-east-1b (SP) down
Bruno Henrique Collovini
bruno.henrique em collovini.com.br
Segunda Dezembro 23 08:54:40 BRST 2013
Rau,
Foi como eu disse anteriormente, não é só acompanhar os nobreaks, validar
baterias, testes diários e etc. Todo um ambiente, que contem circuitos
elétricos, tem muita coisa mecânica. A explicação dos dois acontecimentos é
bem clara, a fadiga no disjunto desarmou um gerador... um dos outros gerados
teve uma sobrecarga e desarmou. A capacidade total com a ausência destes dois
geradores foi impactada desarmando o sistema de reles que transmitiam a carga.
Ahh!! mais ninguém imaginou em ter sempre três geradores do que a carga
nominal? Ninguém imaginou um circuito secundário para troca dos disjuntores em
janelas programadas sem interrupções, devido às falhas que realmente ocorrem?
etc e tal...
Tanto NAT como HRO são sim possíveis de serem evitados. Já vi
"engenheirozinhos" que me disseram que era impossível de fazer uma aterramento
adequado, são os mesmos que aprovam salas de cpd próximo a banheiros,
cisternas e outras coisitas como está que ocorreu...
A grande questão é a escala de conhecimento e o quanto estes especialistas em
um único assunto são incapazes de se expandir no conhecimento. Muitos dos
erros que vejo são decorrentes desta ausência de expansão da capacidade de
conhecimento. Os generalistas estão em falta e prevejo um grande mercado no
futuro...
No caso em questão, deviam ter prestado atenção no Hardy e ser menos incrédulo
que o Lippy (Leão da Montanha). Agora deve ter aparecido diversos bons meninos
como o "Confuso" do Carangos e Motocas dizendo "Eu te disse, eu te disse!".
Boas festas!
Atc,
Bruno H Collovini
On Sat, 21 Dec 2013 09:12:27 -0200, Anselmo [Webgenium] wrote
> Dentro da ciência da Administração (ainda é discutível de adm é
> ciência ou não) existem duas teorias para explicar acidentes (como
> esse da amazon)
>
> NAT: diz que os acidentes são normais e não tem nada que você possa fazer
> para evitar, tudo é uma questão de tempo
>
> HRO: Você consegue evitar os acidentes incluindo elementos que
> tornem a organização menos suscetível a erros de tal forma que ela
> seja livre de acidentes
>
> O grande problema da HRO é que para cada novo instrumento de
> prevenção de falhar você tem um novo componente que pode falhar em
> potencial. Grandes acidentes da humanidade como chernobyl e bopal
> foram causados devido a componentes de segurança que falharam.
>
> Vendo tudo o que ocorre aqui na lista vejo que a NAT explica muito mais
> pois mesmo com todo o recurso e investimento que as grandes fazem os
> acidentes acontecem e continuam a acontecer pois nossos sistemas são
> sociotécnicos e complexos. Quando não é o link que se rompe é o marquinho
> que esqueceu de configurar alguma coisa no roteador de borda.
>
> Não tem a ver com a lista mas resolvi compartilhar pois realmente
> fico preocupado com estas situações.
>
> 2013/12/21 Bruno Araújo <bjaraujo em gmail.com>
>
> > Em 20/12/2013, às 23:05, Rubens Kuhl <rubensk em gmail.com> escreveu:
> >
> > > 2013/12/18 Thiago Martins Bueno <tbueno em dualtec.com.br>
> > >
> > >> Problema de energia no DC Terremark, onde a Amazon tem um ambiente
> > >> hospedado, deve ser isso.
> > >>
> > >
> > > http://aws.amazon.com/message/656481/
More information about the caiu
mailing list