[GTER] Problemas no Terra
Rubens Kuhl Jr.
rubens at email.com
Wed Apr 16 09:40:00 -03 2003
|Que tal dar um crédito para os colegas de profissão, inclusive para o
próprio hardware?
Se eles tiveram esses problemas, é justamente porque deram mais crédito a
uma estrutura do que deveriam...
|O Terra deve possuir um EMC Symmetrix 8330 ou superior, este equipamento
não possui duas fontes, e sim três. Lei de Murphy mesmo!!! O problema foi
|feio!!!
Podem ser três fontes, mas todas tem o mesmo projeto e portanto estão
sujeitas aos mesmos riscos de queima simultânea quando não se tratar de
falha usual de componente... em sistemas de missão crítica de verdade
(aqueles em que se algo dá errado, pessoas morrem), uma providência comum é
ter designs distintos para componentes redundantes.
Eu acho que eles tem mesmo um Symmetrix, mas veja que a EMC tem outra linha
de storage, os Clarion.
| Já passei por situação igual, só que ficamos 8 horas parado.
Um problema com tantas ocorrências não é incomum.
|Entretanto tenho informações que é a primeira vez que acontece este tipo de
problemas em três anos. E também que o problema originou de um pico de
|energia. Grande parte do atraso para retornar o serviço foi devido ao
processo de fsck nos discos.
O Celerra (NAS que usa o Symmetrix como storage) usa journaling... para ter
que dar fsck, só se a falha causar um índice muito alto de corrupção no
file-system. De outra maneira o sistema poderia paralelizar o fsck com o
retorno às operações.
| Outra observação: Será que o Terra não tem No-Break?
Sim, o que não deve adiantar se os caminhos até a energia passam pelo mesmo
quadro de distribuição.
| Porque não possuem um sistema redundante? A própria EMC fornece tecnologia
para isto.
Agora sim, no início e provavelmente quando o Terra adquiriu o sistema de
replicação ainda não suportasse o XFS (file-system usado no EMC Celerra)...
cuidado com as letras miúdas. Além de que isso exige bem mais $... o alto
custo do EMC (Equipamento Muito Caro) pode ter impedido a adoção desta
alternativa.
|Duvido muito que o responsável não tenha solicitado isto para o alto
escalão do Terra. Não estamos falando de 500 usuários, e sim milhões.
| Te garanto que agora eles vão se coçar.
Isso eu concordo. Nada como um pau desses para disparar uma revisão completa
da árvore de falhas, gerando alterações de arquitetura e procedimentos.
Rubens
>>> rubens at email.com 4/15/03 7:29:14 >>>
Quem falhou em acreditar que falhas desse tipo não acontecem não foi o zé da
EMC... se duas fontes são iguais em projeto, os riscos à elas são muito
similares. Não é só de falhas de componentes que Murphy se utiliza para nos
por à prova. E aparentemente os problemas ocorridos das 11h00 de hoje em
diante não tem a haver com fonte...
Faço coro com o Durval: o alto custo de alguns equipamentos faz que soluções
que por sensatez de projeto seriam adotadas, não o sejam. Aí se passa a
querer acreditar em todo o discurso de impossibilidade de falhas que os
vendores dessas soluções precisam para justificar o custo desses
equipamentos... pena que apenas as pessoas e não os equipamentos sejam
suscetíveis a programação neuro-lingüística. ("Você não vai falhar, você é
um equipamento muuuuuito bom...")
Rubens
----- Original Message -----
From: "Juliano Primavesi - CyberWeb Networks" <juliano at cyberweb.com.br>
To: <gter at eng.registro.br>
Sent: Tuesday, April 15, 2003 7:09 PM
Subject: Re: [GTER] Problemas no Terra
| Olha, acho que não é o fato de uma pessoa ter faculdade ou ter concluído
| faculdade, a torna passível de não fazer erros.
|
| Tive acesso hoje à um amigo que é um dos SISOPs da Terra e me informou
| que o que um dos NAS que a Terra tem da EMC simplesmente teve as duas
| fontes queimadas (lembro que normalmente este tipo de equipamento possui
| duas fontes para o caso de uma falhar)
|
| Então, quem falhou no negócio foi justamente o zé que trabalha na
| EMC.... e possivelmente tem até pós-graduação.
|
| Juliano
|
| MARLON BORBA wrote:
| >
| > É. Vocês têm razão. Como diria um amigo meu, o duro é acreditar que
gente vinda de faculdades, portanto instruída, consiga exercer um trabalho
tão "brainless...". ;-)
| >
| > []s,
| >
| > Marlon.
| >
| > >>> leo.sa at uol.com.br 14/04/03 18:01 >>>
| > Marlon,
| >
| > Ue, eh precisa saber que ARP existe p. trabalhar em CallCenter? =]
| >
| > --
| > GTER list http://eng.registro.br/mailman/listinfo/gter
| --
| GTER list http://eng.registro.br/mailman/listinfo/gter
|
--
GTER list http://eng.registro.br/mailman/listinfo/gter
More information about the gter
mailing list