[caiu] Amazon sa-east-1b (SP) down
Marcos Tadeu
marcos em telecom.uff.br
Segunda Dezembro 23 20:03:17 BRST 2013
On 12/23/2013 01:49 PM, rafa strassburger wrote:
> Queria entender o que tem a ver o roteador de Borda com falta de luz porque tem que mexer nele.
Piada em cima da mensagem do Anselmo...
>
>> Date: Mon, 23 Dec 2013 13:47:02 -0200
>> From: marcos at telecom.uff.br
>> To: caiu at eng.registro.br
>> Subject: Re: [caiu] Amazon sa-east-1b (SP) down
>>
>> Escrevi algo na GTS-L, de acordo com esta opinião do Bruno.
>>
>> Mas apimentando os possíveis motivos do power-down:
>> Um especialista escreveu um script, ou uma sequência de
>> operação/manutenção diária. Mas de que adiantou ?
>> Por que foi que os geradores entraram em colapso ? Estavam de greve? Ou
>> "alguém" não tem seguido o script? E outro, ou outros, não tem cobrado /
>> verificado ? Ou alguém que não foi contratado para pensar, pensou que
>> podia analisar ?
>> Culpa do Gestor ou técnico ? Dos dois e mais o peão que, se percebeu
>> alguma possível falha durante os testes programados, pode ter varrido
>> para debaixo do tapete pois, pensou ele, "não iria causar um problema
>> grande, pois tem outras redundâncias no sistema" e o principal, na sua
>> "peão" visão: revelar iria dar trabalho, durante o turno dele !
>> Terminamos com um problema cultural...
>>
>> Ah, sim... Não mexi no roteador de borda...
>>
>> --
>> Marcos Tadeu
>>
>> On 12/23/2013 08:54 AM, Bruno Henrique Collovini wrote:
>>> Rau,
>>>
>>> Foi como eu disse anteriormente, não é só acompanhar os nobreaks, validar
>>> baterias, testes diários e etc. Todo um ambiente, que contem circuitos
>>> elétricos, tem muita coisa mecânica. A explicação dos dois acontecimentos é
>>> bem clara, a fadiga no disjunto desarmou um gerador... um dos outros gerados
>>> teve uma sobrecarga e desarmou. A capacidade total com a ausência destes dois
>>> geradores foi impactada desarmando o sistema de reles que transmitiam a carga.
>>>
>>> Ahh!! mais ninguém imaginou em ter sempre três geradores do que a carga
>>> nominal? Ninguém imaginou um circuito secundário para troca dos disjuntores em
>>> janelas programadas sem interrupções, devido às falhas que realmente ocorrem?
>>> etc e tal...
>>>
>>> Tanto NAT como HRO são sim possíveis de serem evitados. Já vi
>>> "engenheirozinhos" que me disseram que era impossível de fazer uma aterramento
>>> adequado, são os mesmos que aprovam salas de cpd próximo a banheiros,
>>> cisternas e outras coisitas como está que ocorreu...
>>>
>>> A grande questão é a escala de conhecimento e o quanto estes especialistas em
>>> um único assunto são incapazes de se expandir no conhecimento. Muitos dos
>>> erros que vejo são decorrentes desta ausência de expansão da capacidade de
>>> conhecimento. Os generalistas estão em falta e prevejo um grande mercado no
>>> futuro...
>>>
>>> No caso em questão, deviam ter prestado atenção no Hardy e ser menos incrédulo
>>> que o Lippy (Leão da Montanha). Agora deve ter aparecido diversos bons meninos
>>> como o "Confuso" do Carangos e Motocas dizendo "Eu te disse, eu te disse!".
>>>
>>> Boas festas!
>>>
>>> Atc,
>>> Bruno H Collovini
>>>
>>>
>>> On Sat, 21 Dec 2013 09:12:27 -0200, Anselmo [Webgenium] wrote
>>>> Dentro da ciência da Administração (ainda é discutível de adm é
>>>> ciência ou não) existem duas teorias para explicar acidentes (como
>>>> esse da amazon)
>>>>
>>>> NAT: diz que os acidentes são normais e não tem nada que você possa fazer
>>>> para evitar, tudo é uma questão de tempo
>>>>
>>>> HRO: Você consegue evitar os acidentes incluindo elementos que
>>>> tornem a organização menos suscetível a erros de tal forma que ela
>>>> seja livre de acidentes
>>>>
>>>> O grande problema da HRO é que para cada novo instrumento de
>>>> prevenção de falhar você tem um novo componente que pode falhar em
>>>> potencial. Grandes acidentes da humanidade como chernobyl e bopal
>>>> foram causados devido a componentes de segurança que falharam.
>>>>
>>>> Vendo tudo o que ocorre aqui na lista vejo que a NAT explica muito mais
>>>> pois mesmo com todo o recurso e investimento que as grandes fazem os
>>>> acidentes acontecem e continuam a acontecer pois nossos sistemas são
>>>> sociotécnicos e complexos. Quando não é o link que se rompe é o marquinho
>>>> que esqueceu de configurar alguma coisa no roteador de borda.
>>>>
>>>> Não tem a ver com a lista mas resolvi compartilhar pois realmente
>>>> fico preocupado com estas situações.
>>>>
>>>> 2013/12/21 Bruno Araújo <bjaraujo at gmail.com>
>>>>
>>>>> Em 20/12/2013, às 23:05, Rubens Kuhl <rubensk at gmail.com> escreveu:
>>>>>
>>>>>> 2013/12/18 Thiago Martins Bueno <tbueno at dualtec.com.br>
>>>>>>
>>>>>>> Problema de energia no DC Terremark, onde a Amazon tem um ambiente
>>>>>>> hospedado, deve ser isso.
>>>>>>>
>>>>>> http://aws.amazon.com/message/656481/
>>> _______________________________________________
>>> caiu mailing list
>>> caiu at eng.registro.br
>>> https://eng.registro.br/mailman/listinfo/caiu
>>>
>>>
>>> --> PARA SAIR DA LISTA SIGA AS INSTRUÇÕES em:
>>>
>>> https://eng.registro.br/mailman/options/caiu
>> _______________________________________________
>> caiu mailing list
>> caiu at eng.registro.br
>> https://eng.registro.br/mailman/listinfo/caiu
>>
>>
>> --> PARA SAIR DA LISTA SIGA AS INSTRUÇÕES em:
>>
>> https://eng.registro.br/mailman/options/caiu
>
> _______________________________________________
> caiu mailing list
> caiu at eng.registro.br
> https://eng.registro.br/mailman/listinfo/caiu
>
>
> --> PARA SAIR DA LISTA SIGA AS INSTRUÇÕES em:
>
> https://eng.registro.br/mailman/options/caiu
More information about the caiu
mailing list