[caiu] leap second e bugs no Linux e no Java aumentam a carga e travam servidores

Henrique de Moraes Holschuh henrique.holschuh em ima.sp.gov.br
Quinta Julho 5 10:58:03 BRT 2012


André Mello escreveu:
> tstststs... no mundo Linux rebootar somente para os fracos... existem
> ferramentas para depurar este tipo de problema .... ltrace, strace, ldd,

No caso, são dois bugs.  Um, trava.  Se o seu kernel tem esse bug, não tem
escolha, ele já travou.

No outro, o subsistema hrtimers fica 1s no passado, o que causa o disparo
imediato de todos os hrtimers com 1s ou menos.  Esse é o que causa uso de
100% de CPU.   Setar a data ressincroniza o subsistema, por isso "date -s"
resolve.  Atinge muita coisa que usa futex'es, inclusive: mysql e java.

> Reboot eh uma solucao temporaria e ira mascarar o real problema, que
> provavelmente vcs nunca ficara sabendo.

Nesse caso, o reboot resolve DESDE que o ntp não suba, OU QUE o
leap-second já tenha passado.  Até o próximo leap-second :)

-- 
Henrique de Moraes Holschuh <hmh at ima.sp.gov.br>
IM@ - Informática de Municípios Associados
Projetos Especiais
TEL +55-19-3739-6055/CEL +55-19-9293-9464



Mais detalhes sobre a lista de discussão caiu