[caiu] Amazon sa-east-1b (SP) down

Marcos Tadeu marcos em telecom.uff.br
Segunda Dezembro 23 13:47:02 BRST 2013


Escrevi algo na GTS-L, de acordo com esta opinião do Bruno.

Mas apimentando os possíveis motivos do power-down:
Um especialista escreveu um script, ou uma sequência de 
operação/manutenção diária. Mas de que adiantou ?
Por que foi que os geradores entraram em colapso ? Estavam de greve? Ou 
"alguém" não tem seguido o script? E outro, ou outros, não tem cobrado / 
verificado ? Ou alguém que não foi contratado para pensar, pensou que 
podia analisar ?
Culpa do Gestor ou técnico ? Dos dois e mais o peão que, se percebeu 
alguma possível falha durante os testes programados, pode ter varrido 
para debaixo do tapete pois, pensou ele, "não iria causar um problema 
grande, pois tem outras redundâncias no sistema" e o principal, na sua 
"peão" visão: revelar iria dar trabalho, durante o turno dele !
Terminamos com um problema cultural...

Ah, sim... Não mexi no roteador de borda...

-- 
Marcos Tadeu

On 12/23/2013 08:54 AM, Bruno Henrique Collovini wrote:
> Rau,
>
> Foi como eu disse anteriormente, não é só acompanhar os nobreaks, validar
> baterias, testes diários e etc. Todo um ambiente, que contem circuitos
> elétricos, tem muita coisa mecânica. A explicação dos dois acontecimentos é
> bem clara, a fadiga no disjunto desarmou um gerador... um dos outros gerados
> teve uma sobrecarga e desarmou. A capacidade total com a ausência destes dois
> geradores foi impactada desarmando o sistema de reles que transmitiam a carga.
>
> Ahh!! mais ninguém imaginou em ter sempre três geradores do que a carga
> nominal? Ninguém imaginou um circuito secundário para troca dos disjuntores em
> janelas programadas sem interrupções, devido às falhas que realmente ocorrem?
> etc e tal...
>
> Tanto NAT como HRO são sim possíveis de serem evitados. Já vi
> "engenheirozinhos" que me disseram que era impossível de fazer uma aterramento
> adequado, são os mesmos que aprovam salas de cpd próximo a banheiros,
> cisternas e outras coisitas como está que ocorreu...
>
> A grande questão é a escala de conhecimento e o quanto estes especialistas em
> um único assunto são incapazes de se expandir no conhecimento. Muitos dos
> erros que vejo são decorrentes desta ausência de expansão da capacidade de
> conhecimento. Os generalistas estão em falta e prevejo um grande mercado no
> futuro...
>
> No caso em questão, deviam ter prestado atenção no Hardy e ser menos incrédulo
> que o Lippy (Leão da Montanha). Agora deve ter aparecido diversos bons meninos
> como o "Confuso" do Carangos e Motocas dizendo "Eu te disse, eu te disse!".
>
> Boas festas!
>
> Atc,
> Bruno H Collovini
>
>
> On Sat, 21 Dec 2013 09:12:27 -0200, Anselmo [Webgenium] wrote
>> Dentro da ciência da Administração (ainda é discutível de adm é
>> ciência ou não) existem duas teorias para explicar acidentes (como
>> esse da amazon)
>>
>> NAT: diz que os acidentes são normais e não tem nada que você possa fazer
>> para evitar, tudo é uma questão de tempo
>>
>> HRO: Você consegue evitar os acidentes incluindo elementos que
>> tornem a organização menos suscetível a erros de tal forma que ela
>> seja livre de acidentes
>>
>> O grande problema da HRO é que para cada novo instrumento de
>> prevenção de falhar você tem um novo componente que pode falhar em
>> potencial. Grandes acidentes da humanidade como chernobyl e bopal
>> foram causados devido a componentes de segurança que falharam.
>>
>> Vendo tudo o que ocorre aqui na lista vejo que a NAT explica muito mais
>> pois mesmo com todo o recurso e investimento que as grandes fazem os
>> acidentes acontecem e continuam a acontecer pois nossos sistemas são
>> sociotécnicos e complexos. Quando não é o link que se rompe é o marquinho
>> que esqueceu de configurar alguma coisa no roteador de borda.
>>
>> Não tem a ver com a lista mas resolvi compartilhar pois realmente
>> fico preocupado com estas situações.
>>
>> 2013/12/21 Bruno Araújo <bjaraujo at gmail.com>
>>
>>> Em 20/12/2013, às 23:05, Rubens Kuhl <rubensk at gmail.com> escreveu:
>>>
>>>> 2013/12/18 Thiago Martins Bueno <tbueno at dualtec.com.br>
>>>>
>>>>> Problema de energia no DC Terremark, onde a Amazon tem um ambiente
>>>>> hospedado, deve ser isso.
>>>>>
>>>> http://aws.amazon.com/message/656481/
> _______________________________________________
> caiu mailing list
> caiu at eng.registro.br
> https://eng.registro.br/mailman/listinfo/caiu
>
>
> --> PARA SAIR DA LISTA SIGA AS INSTRUÇÕES em:
>
> https://eng.registro.br/mailman/options/caiu



More information about the caiu mailing list