[caiu] leap second e bugs no Linux e no Java aumentam a carga e travam servidores

Roberto Lima smuxbr em gmail.com
Quinta Julho 5 15:11:25 BRT 2012


Reincidindo um pouco no assunto, o munin conseguiu registrar a atividade
NTP no kernel [1] em um de meus servidores que não houve o travamento. O
que está no grafico entre os dias 29 e 30/06 realmente não foi uma
coincidencia.

[1] =  http://i.imgur.com/u2VaI.png

Abs.

Em 5 de julho de 2012 09:58, Henrique de Moraes Holschuh <
henrique.holschuh at ima.sp.gov.br> escreveu:

>
> André Mello escreveu:
> > tstststs... no mundo Linux rebootar somente para os fracos... existem
> > ferramentas para depurar este tipo de problema .... ltrace, strace, ldd,
>
> No caso, são dois bugs.  Um, trava.  Se o seu kernel tem esse bug, não tem
> escolha, ele já travou.
>
> No outro, o subsistema hrtimers fica 1s no passado, o que causa o disparo
> imediato de todos os hrtimers com 1s ou menos.  Esse é o que causa uso de
> 100% de CPU.   Setar a data ressincroniza o subsistema, por isso "date -s"
> resolve.  Atinge muita coisa que usa futex'es, inclusive: mysql e java.
>
> > Reboot eh uma solucao temporaria e ira mascarar o real problema, que
> > provavelmente vcs nunca ficara sabendo.
>
> Nesse caso, o reboot resolve DESDE que o ntp não suba, OU QUE o
> leap-second já tenha passado.  Até o próximo leap-second :)
>
> --
> Henrique de Moraes Holschuh <hmh at ima.sp.gov.br>
> IM@ - Informática de Municípios Associados
> Projetos Especiais
> TEL +55-19-3739-6055/CEL +55-19-9293-9464
>
> _______________________________________________
> caiu mailing list
> caiu at eng.registro.br
> https://eng.registro.br/mailman/listinfo/caiu
>
>
> --> PARA SAIR DA LISTA SIGA AS INSTRUÇÕES em:
>
> https://eng.registro.br/mailman/options/caiu
>


Mais detalhes sobre a lista de discussão caiu