[caiu] Amazon sa-east-1b (SP) down
rafa strassburger
rafaeltdk em hotmail.com
Segunda Dezembro 23 13:49:04 BRST 2013
Queria entender o que tem a ver o roteador de Borda com falta de luz porque tem que mexer nele.
> Date: Mon, 23 Dec 2013 13:47:02 -0200
> From: marcos em telecom.uff.br
> To: caiu em eng.registro.br
> Subject: Re: [caiu] Amazon sa-east-1b (SP) down
>
> Escrevi algo na GTS-L, de acordo com esta opinião do Bruno.
>
> Mas apimentando os possíveis motivos do power-down:
> Um especialista escreveu um script, ou uma sequência de
> operação/manutenção diária. Mas de que adiantou ?
> Por que foi que os geradores entraram em colapso ? Estavam de greve? Ou
> "alguém" não tem seguido o script? E outro, ou outros, não tem cobrado /
> verificado ? Ou alguém que não foi contratado para pensar, pensou que
> podia analisar ?
> Culpa do Gestor ou técnico ? Dos dois e mais o peão que, se percebeu
> alguma possível falha durante os testes programados, pode ter varrido
> para debaixo do tapete pois, pensou ele, "não iria causar um problema
> grande, pois tem outras redundâncias no sistema" e o principal, na sua
> "peão" visão: revelar iria dar trabalho, durante o turno dele !
> Terminamos com um problema cultural...
>
> Ah, sim... Não mexi no roteador de borda...
>
> --
> Marcos Tadeu
>
> On 12/23/2013 08:54 AM, Bruno Henrique Collovini wrote:
> > Rau,
> >
> > Foi como eu disse anteriormente, não é só acompanhar os nobreaks, validar
> > baterias, testes diários e etc. Todo um ambiente, que contem circuitos
> > elétricos, tem muita coisa mecânica. A explicação dos dois acontecimentos é
> > bem clara, a fadiga no disjunto desarmou um gerador... um dos outros gerados
> > teve uma sobrecarga e desarmou. A capacidade total com a ausência destes dois
> > geradores foi impactada desarmando o sistema de reles que transmitiam a carga.
> >
> > Ahh!! mais ninguém imaginou em ter sempre três geradores do que a carga
> > nominal? Ninguém imaginou um circuito secundário para troca dos disjuntores em
> > janelas programadas sem interrupções, devido às falhas que realmente ocorrem?
> > etc e tal...
> >
> > Tanto NAT como HRO são sim possíveis de serem evitados. Já vi
> > "engenheirozinhos" que me disseram que era impossível de fazer uma aterramento
> > adequado, são os mesmos que aprovam salas de cpd próximo a banheiros,
> > cisternas e outras coisitas como está que ocorreu...
> >
> > A grande questão é a escala de conhecimento e o quanto estes especialistas em
> > um único assunto são incapazes de se expandir no conhecimento. Muitos dos
> > erros que vejo são decorrentes desta ausência de expansão da capacidade de
> > conhecimento. Os generalistas estão em falta e prevejo um grande mercado no
> > futuro...
> >
> > No caso em questão, deviam ter prestado atenção no Hardy e ser menos incrédulo
> > que o Lippy (Leão da Montanha). Agora deve ter aparecido diversos bons meninos
> > como o "Confuso" do Carangos e Motocas dizendo "Eu te disse, eu te disse!".
> >
> > Boas festas!
> >
> > Atc,
> > Bruno H Collovini
> >
> >
> > On Sat, 21 Dec 2013 09:12:27 -0200, Anselmo [Webgenium] wrote
> >> Dentro da ciência da Administração (ainda é discutível de adm é
> >> ciência ou não) existem duas teorias para explicar acidentes (como
> >> esse da amazon)
> >>
> >> NAT: diz que os acidentes são normais e não tem nada que você possa fazer
> >> para evitar, tudo é uma questão de tempo
> >>
> >> HRO: Você consegue evitar os acidentes incluindo elementos que
> >> tornem a organização menos suscetível a erros de tal forma que ela
> >> seja livre de acidentes
> >>
> >> O grande problema da HRO é que para cada novo instrumento de
> >> prevenção de falhar você tem um novo componente que pode falhar em
> >> potencial. Grandes acidentes da humanidade como chernobyl e bopal
> >> foram causados devido a componentes de segurança que falharam.
> >>
> >> Vendo tudo o que ocorre aqui na lista vejo que a NAT explica muito mais
> >> pois mesmo com todo o recurso e investimento que as grandes fazem os
> >> acidentes acontecem e continuam a acontecer pois nossos sistemas são
> >> sociotécnicos e complexos. Quando não é o link que se rompe é o marquinho
> >> que esqueceu de configurar alguma coisa no roteador de borda.
> >>
> >> Não tem a ver com a lista mas resolvi compartilhar pois realmente
> >> fico preocupado com estas situações.
> >>
> >> 2013/12/21 Bruno Araújo <bjaraujo em gmail.com>
> >>
> >>> Em 20/12/2013, às 23:05, Rubens Kuhl <rubensk em gmail.com> escreveu:
> >>>
> >>>> 2013/12/18 Thiago Martins Bueno <tbueno em dualtec.com.br>
> >>>>
> >>>>> Problema de energia no DC Terremark, onde a Amazon tem um ambiente
> >>>>> hospedado, deve ser isso.
> >>>>>
> >>>> http://aws.amazon.com/message/656481/
> > _______________________________________________
> > caiu mailing list
> > caiu em eng.registro.br
> > https://eng.registro.br/mailman/listinfo/caiu
> >
> >
> > --> PARA SAIR DA LISTA SIGA AS INSTRUÇÕES em:
> >
> > https://eng.registro.br/mailman/options/caiu
>
> _______________________________________________
> caiu mailing list
> caiu em eng.registro.br
> https://eng.registro.br/mailman/listinfo/caiu
>
>
> --> PARA SAIR DA LISTA SIGA AS INSTRUÇÕES em:
>
> https://eng.registro.br/mailman/options/caiu
More information about the caiu
mailing list