[caiu] leap second e bugs no Linux e no Java aumentam a carga e travam servidores
Roberto Lima
smuxbr em gmail.com
Quinta Julho 5 15:11:25 BRT 2012
Reincidindo um pouco no assunto, o munin conseguiu registrar a atividade
NTP no kernel [1] em um de meus servidores que não houve o travamento. O
que está no grafico entre os dias 29 e 30/06 realmente não foi uma
coincidencia.
[1] = http://i.imgur.com/u2VaI.png
Abs.
Em 5 de julho de 2012 09:58, Henrique de Moraes Holschuh <
henrique.holschuh at ima.sp.gov.br> escreveu:
>
> André Mello escreveu:
> > tstststs... no mundo Linux rebootar somente para os fracos... existem
> > ferramentas para depurar este tipo de problema .... ltrace, strace, ldd,
>
> No caso, são dois bugs. Um, trava. Se o seu kernel tem esse bug, não tem
> escolha, ele já travou.
>
> No outro, o subsistema hrtimers fica 1s no passado, o que causa o disparo
> imediato de todos os hrtimers com 1s ou menos. Esse é o que causa uso de
> 100% de CPU. Setar a data ressincroniza o subsistema, por isso "date -s"
> resolve. Atinge muita coisa que usa futex'es, inclusive: mysql e java.
>
> > Reboot eh uma solucao temporaria e ira mascarar o real problema, que
> > provavelmente vcs nunca ficara sabendo.
>
> Nesse caso, o reboot resolve DESDE que o ntp não suba, OU QUE o
> leap-second já tenha passado. Até o próximo leap-second :)
>
> --
> Henrique de Moraes Holschuh <hmh at ima.sp.gov.br>
> IM@ - Informática de Municípios Associados
> Projetos Especiais
> TEL +55-19-3739-6055/CEL +55-19-9293-9464
>
> _______________________________________________
> caiu mailing list
> caiu at eng.registro.br
> https://eng.registro.br/mailman/listinfo/caiu
>
>
> --> PARA SAIR DA LISTA SIGA AS INSTRUÇÕES em:
>
> https://eng.registro.br/mailman/options/caiu
>
Mais detalhes sobre a lista de discussão caiu