[MASOCH-L] Problemas Dell PowerEdge 1900 com SLES11 SP1
Fernando Ulisses dos Santos
fernando at bluesolutions.com.br
Fri Nov 5 09:46:45 -03 2010
Rejaine,
Desativar o DRBD parece ser o próximo passo.
Na saída do /proc/diskstats o DRBD estava segurando 5 processos e o sdc
apenas 3, tinha uma diferença de 2 processos por conta da camada DRBD,
que pode ser o responsável pelo load alto.
Mesmo assim, se o sdc mantiver essa linha, teu load deve ficar na casa
dos 4 ou 5. Você comentou que tinha 4 discos, mas tem apresentado apenas
sda, sdb, sdc, teu RAID não parece estar na melhor configuração de
performance e disponibilidade, eu teria apresentado apenas RAID 10 com
os 4 discos.
Talvez você tenha encontrado um bug muito sério no conjunto de kernel +
módulos + hardware, se nada resolver, a saída final será trocar a versão
(atualizar firmware, trocar kernel, drbd, etc).
Fernando Ulisses dos Santos
Blue Solutions - Soluções em TI - Araras/SP
19-3321-9068 / 19-3551-3898
Em 04-11-2010 18:08, Rejaine Monteiro escreveu:
> Pois é Fernando.
>
> Uma das primeiras coisas que fizemos foi fazer um tunning geral no drbd,
> que não resolveu.
> E para tirar a dúvida sobre o sync, chegamos a desativar o sincronismo,
> justamente para eliminar essa causa e nada...
> Ou seja, o sync já não estava rodando quando foram executados os
> comandos que voce~ pediu, porém os dados continuam sendo gravados na
> camada drbd (já pensamos até em desfazer todo o drbd e gravar direto em
> disco local, mas isso ainda não foi possível fazer nesse momento)
>
> E quanto a placa: a para fazer o sync é a eth1 e não a eth0 (esta última
> está ligada à rede local)
>
> Nos dois casos, são placas gigabit e o swtich que liga o servidor
> também é gigabit
>
>
> Em 04-11-2010 17:55, Fernando Ulisses dos Santos escreveu:
>> Rejaine,
>>
>> Ok, do que eu pude analisar, o drbd1 está travando alguns processos
>> que podem justificar esse load.
>>
>> Por acaso ele está sincronizado? Se não estiver, é o culpado número 1.
>>
>> A placa de rede eth0 é usada para sincronizar o DRBD com o outro host?
>> Está ligada a Gigabit? Analise o tráfego dela com algum utilitário
>> como iptraf ou iftop, veja se não está saturando o uso, altere os
>> parâmetros do DRBD para usar menos banda se for o caso.
>>
>> Se isso não resolver, execute o seguinte comando em horário de pico e
>> me passe o resultado:
>> cat /proc/diskstats ; sleep 10 ; cat /proc/diskstats ; sleep 10 ; cat
>> /proc/diskstats
>>
>>
>> Fernando Ulisses dos Santos
>> Blue Solutions - Soluções em TI - Araras/SP
>> 19-3321-9068 / 19-9294-0556
>>
>>
>> Em 04-11-2010 16:54, Rejaine Monteiro escreveu:
>>> Olá Fernando,
>>>
>>> Segue a saída para os comandos que você solicitou.
>>> No momento em que eles foram executados, a carga estava assim: 4:51pm
>>> up 2 days 15:13, 31 users, load average: 26.80, 38.18, 40.04
>>>
>>>
>>> # cat /proc/diskstats
>>>
>>> 8 0 sda 2373526 5337314 362747321 6950680 1119916 589136 18078042
>>> 21478208 0 8884264 28427660
>>> 8 1 sda1 3 0 6 4 0 0 0 0 0 4
>>> 4
>>> 8 5 sda5 20588 7231 391563 101956 62443 241279 2429776 2818612 0
>>> 342780 2920548
>>> 8 6 sda6 8105 3851 355672 31132 201145 164353 2923944 2529036 0
>>> 1176384 2560192
>>> 8 7 sda7 28 106 884 200 8 36 352 344 0 504
>>> 544
>>> 8 8 sda8 2344773 5325879 361998092 6817276 856320 183468 12723970
>>> 16130216 0 7759176 22946228
>>> 8 16 sdb 233753 11745 3700365 1121176 1621349 8762163 441680121
>>> 213615504 0 7454384 214736244
>>> 8 17 sdb1 3 0 6 8 0 0 0 0 0 8
>>> 8
>>> 8 21 sdb5 9347 1041 75656 4332 262 1950 17744 16944 0 5016
>>> 21268
>>> 8 22 sdb6 19596 9215 1052600 338436 36287 89084 1002944 1286432 0
>>> 332092 1624860
>>> 8 23 sdb7 31 147 716 80 0 0 0 0 0 64
>>> 80
>>> 8 24 sdb8 204738 1070 2570167 778216 1584800 8671129 440659433
>>> 212312128 0 7270200 213089912
>>> 8 32 sdc 1103397 1831933 117183384 13374208 2833434 13409291
>>> 237123430 30021984 3 15776748 43396056
>>> 8 33 sdc1 1103374 1831894 117182888 13374172 2833434 13409291
>>> 237123430 30021984 3 15776672 43395904
>>> 11 0 sr0 0 0 0 0 0 0 0 0 0 0
>>> 0
>>> 7 0 loop0 0 0 0 0 0 0 0 0 0 0
>>> 0
>>> 7 1 loop1 0 0 0 0 0 0 0 0 0 0
>>> 0
>>> 7 2 loop2 0 0 0 0 0 0 0 0 0 0
>>> 0
>>> 7 3 loop3 0 0 0 0 0 0 0 0 0 0
>>> 0
>>> 7 4 loop4 0 0 0 0 0 0 0 0 0 0
>>> 0
>>> 7 5 loop5 0 0 0 0 0 0 0 0 0 0
>>> 0
>>> 7 6 loop6 0 0 0 0 0 0 0 0 0 0
>>> 0
>>> 7 7 loop7 0 0 0 0 0 0 0 0 0 0
>>> 0
>>> 147 0 drbd0 7670231 0 361980801 22353608 790391 0 12224264 23668176
>>> 0 6631480 42060388
>>> 147 1 drbd1 2932451 0 117145425 32553268 15218982 0 235073118
>>> 240505628 5 9461760 243188612
>>>
>>> # cat
>>> /proc/interrupts
>>>
>>> CPU0 CPU1 CPU2 CPU3 CPU4
>>> CPU5 CPU6 CPU7
>>> 0: 126 111 107 88 71
>>> 113 127 99 IO-APIC-edge timer
>>> 1: 0 1 0 1 0
>>> 0 0 0 IO-APIC-edge i8042
>>> 3: 1 0 0 0 0
>>> 0 0 1 IO-APIC-edge
>>> 4: 0 0 0 1 0
>>> 1 0 0 IO-APIC-edge
>>> 8: 1 0 0 0 0
>>> 0 0 0 IO-APIC-edge rtc0
>>> 9: 0 0 0 0 0
>>> 0 0 0 IO-APIC-fasteoi acpi
>>> 12: 1 0 0 0 0
>>> 1 1 1 IO-APIC-edge i8042
>>> 20: 4161 8 8 10 8
>>> 9 8 8 IO-APIC-fasteoi uhci_hcd:usb3, uhci_hcd:usb5
>>> 21: 3 4 3 3 5
>>> 3 3 2 IO-APIC-fasteoi ehci_hcd:usb1,
>>> uhci_hcd:usb2, uhci_hcd:usb4
>>> 23: 1157658 399 12 13 1190308
>>> 383 13 12 IO-APIC-fasteoi ata_piix
>>> 4340: 11835998 11961200 11961267 10498754 11873005
>>> 11961101 11961249 10499059 PCI-MSI-edge eth0
>>> 4341: 113512 5 1 2 1
>>> 223 2 7 PCI-MSI-edge eth1
>>> 4342: 1966 420 419 5559507 1969
>>> 423 419 5559192 PCI-MSI-edge ioc0
>>> 4346: 0 0 0 0 0
>>> 0 0 0 PCI-MSI-edge aerdrv
>>> 4347: 0 0 0 0 0
>>> 0 0 0 PCI-MSI-edge aerdrv
>>> 4348: 0 0 0 0 0
>>> 0 0 0 PCI-MSI-edge aerdrv
>>> 4349: 0 0 0 0 0
>>> 0 0 0 PCI-MSI-edge aerdrv
>>> 4350: 0 0 0 0 0
>>> 0 0 0 PCI-MSI-edge aerdrv
>>> 4351: 0 0 0 0 0
>>> 0 0 0 PCI-MSI-edge aerdrv
>>> NMI: 0 0 0 0 0
>>> 0 0 0 Non-maskable interrupts
>>> LOC: 6202471 5360089 5336912 5926017 4578018
>>> 4119057 4153793 7799872 Local timer interrupts
>>> RES: 4075362 3703559 3670625 4459376 3952669
>>> 3597535 3861743 4510502 Rescheduling interrupts
>>> CAL: 1497 1517 1522 1456 1471
>>> 1482 1487 452 function call interrupts
>>> TLB: 101705 93607 93412 89613 161066
>>> 152551 153405 146574 TLB shootdowns
>>> TRM: 0 0 0 0 0
>>> 0 0 0 Thermal event interrupts
>>> THR: 0 0 0 0 0
>>> 0 0 0 Threshold APIC interrupts
>>> SPU: 0 0 0 0 0
>>> 0 0 0 Spurious interrupts
>>> ERR: 0
>>>
>>> # cat /proc/sys/fs/file-nr
>>> 7168 0 766538
>>>
>>> # wc -l /proc/net/tcp
>>> 886 /proc/net/tcp
>>>
>>> # wc -l /proc/net/udp
>>> 48 /proc/net/udp
>>>
>>> # wc -l /proc/net/raw
>>> 2 /proc/net/raw
>>>
>>> # wc -l /proc/net/unix
>>> 306 /proc/net/unix
>>>
>>>
>>> Rejaine da Silveira Monteiro
>>> Suporte-TI
>>> Jamef Encomendas Urgentes
>>> Matriz - Contagem/MG
>>> Tel: (31) 2102-8854
>>> www.jamef.com.br
>>>
>>>
>>> Em 04-11-2010 16:20, Fernando Ulisses dos Santos escreveu:
>>>> cat /proc/diskstats
>>>> cat /proc/interrupts
>>>> cat /proc/sys/fs/file-nr
>>>> wc -l /proc/net/tcp
>>>> wc -l /proc/net/udp
>>>> wc -l /proc/net/raw
>>>> wc -l /proc/net/unix
>>> __
>>> masoch-l list
>>> https://eng.registro.br/mailman/listinfo/masoch-l
>> __
>> masoch-l list
>> https://eng.registro.br/mailman/listinfo/masoch-l
> __
> masoch-l list
> https://eng.registro.br/mailman/listinfo/masoch-l
More information about the masoch-l
mailing list