[caiu] Amazon sa-east-1b (SP) down

rafa strassburger rafaeltdk em hotmail.com
Segunda Dezembro 23 13:49:04 BRST 2013


Queria entender o que tem a ver o roteador de Borda com falta de luz porque tem que mexer nele.

> Date: Mon, 23 Dec 2013 13:47:02 -0200
> From: marcos em telecom.uff.br
> To: caiu em eng.registro.br
> Subject: Re: [caiu] Amazon sa-east-1b (SP) down
> 
> Escrevi algo na GTS-L, de acordo com esta opinião do Bruno.
> 
> Mas apimentando os possíveis motivos do power-down:
> Um especialista escreveu um script, ou uma sequência de 
> operação/manutenção diária. Mas de que adiantou ?
> Por que foi que os geradores entraram em colapso ? Estavam de greve? Ou 
> "alguém" não tem seguido o script? E outro, ou outros, não tem cobrado / 
> verificado ? Ou alguém que não foi contratado para pensar, pensou que 
> podia analisar ?
> Culpa do Gestor ou técnico ? Dos dois e mais o peão que, se percebeu 
> alguma possível falha durante os testes programados, pode ter varrido 
> para debaixo do tapete pois, pensou ele, "não iria causar um problema 
> grande, pois tem outras redundâncias no sistema" e o principal, na sua 
> "peão" visão: revelar iria dar trabalho, durante o turno dele !
> Terminamos com um problema cultural...
> 
> Ah, sim... Não mexi no roteador de borda...
> 
> -- 
> Marcos Tadeu
> 
> On 12/23/2013 08:54 AM, Bruno Henrique Collovini wrote:
> > Rau,
> >
> > Foi como eu disse anteriormente, não é só acompanhar os nobreaks, validar
> > baterias, testes diários e etc. Todo um ambiente, que contem circuitos
> > elétricos, tem muita coisa mecânica. A explicação dos dois acontecimentos é
> > bem clara, a fadiga no disjunto desarmou um gerador... um dos outros gerados
> > teve uma sobrecarga e desarmou. A capacidade total com a ausência destes dois
> > geradores foi impactada desarmando o sistema de reles que transmitiam a carga.
> >
> > Ahh!! mais ninguém imaginou em ter sempre três geradores do que a carga
> > nominal? Ninguém imaginou um circuito secundário para troca dos disjuntores em
> > janelas programadas sem interrupções, devido às falhas que realmente ocorrem?
> > etc e tal...
> >
> > Tanto NAT como HRO são sim possíveis de serem evitados. Já vi
> > "engenheirozinhos" que me disseram que era impossível de fazer uma aterramento
> > adequado, são os mesmos que aprovam salas de cpd próximo a banheiros,
> > cisternas e outras coisitas como está que ocorreu...
> >
> > A grande questão é a escala de conhecimento e o quanto estes especialistas em
> > um único assunto são incapazes de se expandir no conhecimento. Muitos dos
> > erros que vejo são decorrentes desta ausência de expansão da capacidade de
> > conhecimento. Os generalistas estão em falta e prevejo um grande mercado no
> > futuro...
> >
> > No caso em questão, deviam ter prestado atenção no Hardy e ser menos incrédulo
> > que o Lippy (Leão da Montanha). Agora deve ter aparecido diversos bons meninos
> > como o "Confuso" do Carangos e Motocas dizendo "Eu te disse, eu te disse!".
> >
> > Boas festas!
> >
> > Atc,
> > Bruno H Collovini
> >
> >
> > On Sat, 21 Dec 2013 09:12:27 -0200, Anselmo [Webgenium] wrote
> >> Dentro da ciência da Administração (ainda é discutível de adm é
> >> ciência ou não) existem duas teorias para explicar acidentes (como
> >> esse da amazon)
> >>
> >> NAT: diz que os acidentes são normais e não tem nada que você possa fazer
> >> para evitar, tudo é uma questão de tempo
> >>
> >> HRO: Você consegue evitar os acidentes incluindo elementos que
> >> tornem a organização menos suscetível a erros de tal forma que ela
> >> seja livre de acidentes
> >>
> >> O grande problema da HRO é que para cada novo instrumento de
> >> prevenção de falhar você tem um novo componente que pode falhar em
> >> potencial. Grandes acidentes da humanidade como chernobyl e bopal
> >> foram causados devido a componentes de segurança que falharam.
> >>
> >> Vendo tudo o que ocorre aqui na lista vejo que a NAT explica muito mais
> >> pois mesmo com todo o recurso e investimento que as grandes fazem os
> >> acidentes acontecem e continuam a acontecer pois nossos sistemas são
> >> sociotécnicos e complexos. Quando não é o link que se rompe é o marquinho
> >> que esqueceu de configurar alguma coisa no roteador de borda.
> >>
> >> Não tem a ver com a lista mas resolvi compartilhar pois realmente
> >> fico preocupado com estas situações.
> >>
> >> 2013/12/21 Bruno Araújo <bjaraujo em gmail.com>
> >>
> >>> Em 20/12/2013, às 23:05, Rubens Kuhl <rubensk em gmail.com> escreveu:
> >>>
> >>>> 2013/12/18 Thiago Martins Bueno <tbueno em dualtec.com.br>
> >>>>
> >>>>> Problema de energia no DC Terremark, onde a Amazon tem um ambiente
> >>>>> hospedado, deve ser isso.
> >>>>>
> >>>> http://aws.amazon.com/message/656481/
> > _______________________________________________
> > caiu mailing list
> > caiu em eng.registro.br
> > https://eng.registro.br/mailman/listinfo/caiu
> >
> >
> > --> PARA SAIR DA LISTA SIGA AS INSTRUÇÕES em:
> >
> > https://eng.registro.br/mailman/options/caiu
> 
> _______________________________________________
> caiu mailing list
> caiu em eng.registro.br
> https://eng.registro.br/mailman/listinfo/caiu
> 
> 
> --> PARA SAIR DA LISTA SIGA AS INSTRUÇÕES em:
> 
> https://eng.registro.br/mailman/options/caiu
 		 	   		  


More information about the caiu mailing list