[MASOCH-L] Problemas Dell PowerEdge 1900 com SLES11 SP1

Fernando Ulisses dos Santos fernando at bluesolutions.com.br
Fri Nov 5 09:46:45 BRST 2010


Rejaine,

Desativar o DRBD parece ser o próximo passo.

Na saída do /proc/diskstats o DRBD estava segurando 5 processos e o sdc 
apenas 3, tinha uma diferença de 2 processos por conta da camada DRBD, 
que pode ser o responsável pelo load alto.

Mesmo assim, se o sdc mantiver essa linha, teu load deve ficar na casa 
dos 4 ou 5. Você comentou que tinha 4 discos, mas tem apresentado apenas 
sda, sdb, sdc, teu RAID não parece estar na melhor configuração de 
performance e disponibilidade, eu teria apresentado apenas RAID 10 com 
os 4 discos.

Talvez você tenha encontrado um bug muito sério no conjunto de kernel + 
módulos + hardware, se nada resolver, a saída final será trocar a versão 
(atualizar firmware, trocar kernel, drbd, etc).

Fernando Ulisses dos Santos
Blue Solutions - Soluções em TI - Araras/SP
19-3321-9068 / 19-3551-3898


Em 04-11-2010 18:08, Rejaine Monteiro escreveu:
> Pois é Fernando.
>
> Uma das primeiras coisas que fizemos foi fazer um tunning geral no drbd,
> que não resolveu.
> E para tirar a dúvida sobre o sync,  chegamos a desativar o sincronismo,
> justamente para eliminar essa causa e nada...
> Ou seja, o sync já não estava rodando quando foram executados os
> comandos que voce~ pediu, porém os dados continuam sendo gravados na
> camada drbd (já pensamos até em desfazer todo o drbd e gravar direto em
> disco local, mas isso ainda não foi possível fazer nesse momento)
>
> E quanto a placa: a para fazer o sync é a eth1 e não a eth0 (esta última
> está ligada à rede local)
>
> Nos dois casos, são placas gigabit e o swtich que liga o servidor
> também é gigabit
>
>
> Em 04-11-2010 17:55, Fernando Ulisses dos Santos escreveu:
>> Rejaine,
>>
>> Ok, do que eu pude analisar, o drbd1 está travando alguns processos
>> que podem justificar esse load.
>>
>> Por acaso ele está sincronizado? Se não estiver, é o culpado número 1.
>>
>> A placa de rede eth0 é usada para sincronizar o DRBD com o outro host?
>> Está ligada a Gigabit? Analise o tráfego dela com algum utilitário
>> como iptraf ou iftop, veja se não está saturando o uso, altere os
>> parâmetros do DRBD para usar menos banda se for o caso.
>>
>> Se isso não resolver, execute o seguinte comando em horário de pico e
>> me passe o resultado:
>> cat /proc/diskstats ; sleep 10 ; cat /proc/diskstats ; sleep 10 ; cat
>> /proc/diskstats
>>
>>
>> Fernando Ulisses dos Santos
>> Blue Solutions - Soluções em TI - Araras/SP
>> 19-3321-9068 / 19-9294-0556
>>
>>
>> Em 04-11-2010 16:54, Rejaine Monteiro escreveu:
>>> Olá Fernando,
>>>
>>> Segue a saída para os comandos que você solicitou.
>>> No momento em que eles foram executados, a carga estava assim:  4:51pm
>>> up 2 days 15:13,  31 users,  load average: 26.80, 38.18, 40.04
>>>
>>>
>>> # cat /proc/diskstats
>>>
>>>      8    0 sda 2373526 5337314 362747321 6950680 1119916 589136 18078042
>>> 21478208 0 8884264 28427660
>>>      8    1 sda1 3 0 6 4 0 0 0 0 0 4
>>> 4
>>>      8    5 sda5 20588 7231 391563 101956 62443 241279 2429776 2818612 0
>>> 342780 2920548
>>>      8    6 sda6 8105 3851 355672 31132 201145 164353 2923944 2529036 0
>>> 1176384 2560192
>>>      8    7 sda7 28 106 884 200 8 36 352 344 0 504
>>> 544
>>>      8    8 sda8 2344773 5325879 361998092 6817276 856320 183468 12723970
>>> 16130216 0 7759176 22946228
>>>      8   16 sdb 233753 11745 3700365 1121176 1621349 8762163 441680121
>>> 213615504 0 7454384 214736244
>>>      8   17 sdb1 3 0 6 8 0 0 0 0 0 8
>>> 8
>>>      8   21 sdb5 9347 1041 75656 4332 262 1950 17744 16944 0 5016
>>> 21268
>>>      8   22 sdb6 19596 9215 1052600 338436 36287 89084 1002944 1286432 0
>>> 332092 1624860
>>>      8   23 sdb7 31 147 716 80 0 0 0 0 0 64
>>> 80
>>>      8   24 sdb8 204738 1070 2570167 778216 1584800 8671129 440659433
>>> 212312128 0 7270200 213089912
>>>      8   32 sdc 1103397 1831933 117183384 13374208 2833434 13409291
>>> 237123430 30021984 3 15776748 43396056
>>>      8   33 sdc1 1103374 1831894 117182888 13374172 2833434 13409291
>>> 237123430 30021984 3 15776672 43395904
>>>     11    0 sr0 0 0 0 0 0 0 0 0 0 0
>>> 0
>>>      7    0 loop0 0 0 0 0 0 0 0 0 0 0
>>> 0
>>>      7    1 loop1 0 0 0 0 0 0 0 0 0 0
>>> 0
>>>      7    2 loop2 0 0 0 0 0 0 0 0 0 0
>>> 0
>>>      7    3 loop3 0 0 0 0 0 0 0 0 0 0
>>> 0
>>>      7    4 loop4 0 0 0 0 0 0 0 0 0 0
>>> 0
>>>      7    5 loop5 0 0 0 0 0 0 0 0 0 0
>>> 0
>>>      7    6 loop6 0 0 0 0 0 0 0 0 0 0
>>> 0
>>>      7    7 loop7 0 0 0 0 0 0 0 0 0 0
>>> 0
>>>    147    0 drbd0 7670231 0 361980801 22353608 790391 0 12224264 23668176
>>> 0 6631480 42060388
>>>    147    1 drbd1 2932451 0 117145425 32553268 15218982 0 235073118
>>> 240505628 5 9461760 243188612
>>>
>>> # cat
>>> /proc/interrupts
>>>
>>>              CPU0       CPU1       CPU2       CPU3       CPU4
>>> CPU5       CPU6       CPU7
>>>     0:        126        111        107         88         71
>>> 113        127         99   IO-APIC-edge      timer
>>>     1:          0          1          0          1          0
>>> 0          0          0   IO-APIC-edge      i8042
>>>     3:          1          0          0          0          0
>>> 0          0          1   IO-APIC-edge
>>>     4:          0          0          0          1          0
>>> 1          0          0   IO-APIC-edge
>>>     8:          1          0          0          0          0
>>> 0          0          0   IO-APIC-edge      rtc0
>>>     9:          0          0          0          0          0
>>> 0          0          0   IO-APIC-fasteoi   acpi
>>>    12:          1          0          0          0          0
>>> 1          1          1   IO-APIC-edge      i8042
>>>    20:       4161          8          8         10          8
>>> 9          8          8   IO-APIC-fasteoi   uhci_hcd:usb3, uhci_hcd:usb5
>>>    21:          3          4          3          3          5
>>> 3          3          2   IO-APIC-fasteoi   ehci_hcd:usb1,
>>> uhci_hcd:usb2, uhci_hcd:usb4
>>>    23:    1157658        399         12         13    1190308
>>> 383         13         12   IO-APIC-fasteoi   ata_piix
>>> 4340:   11835998   11961200   11961267   10498754   11873005
>>> 11961101   11961249   10499059   PCI-MSI-edge      eth0
>>> 4341:     113512          5          1          2          1
>>> 223          2          7   PCI-MSI-edge      eth1
>>> 4342:       1966        420        419    5559507       1969
>>> 423        419    5559192   PCI-MSI-edge      ioc0
>>> 4346:          0          0          0          0          0
>>> 0          0          0   PCI-MSI-edge      aerdrv
>>> 4347:          0          0          0          0          0
>>> 0          0          0   PCI-MSI-edge      aerdrv
>>> 4348:          0          0          0          0          0
>>> 0          0          0   PCI-MSI-edge      aerdrv
>>> 4349:          0          0          0          0          0
>>> 0          0          0   PCI-MSI-edge      aerdrv
>>> 4350:          0          0          0          0          0
>>> 0          0          0   PCI-MSI-edge      aerdrv
>>> 4351:          0          0          0          0          0
>>> 0          0          0   PCI-MSI-edge      aerdrv
>>> NMI:          0          0          0          0          0
>>> 0          0          0   Non-maskable interrupts
>>> LOC:    6202471    5360089    5336912    5926017    4578018
>>> 4119057    4153793    7799872   Local timer interrupts
>>> RES:    4075362    3703559    3670625    4459376    3952669
>>> 3597535    3861743    4510502   Rescheduling interrupts
>>> CAL:       1497       1517       1522       1456       1471
>>> 1482       1487        452   function call interrupts
>>> TLB:     101705      93607      93412      89613     161066
>>> 152551     153405     146574   TLB shootdowns
>>> TRM:          0          0          0          0          0
>>> 0          0          0   Thermal event interrupts
>>> THR:          0          0          0          0          0
>>> 0          0          0   Threshold APIC interrupts
>>> SPU:          0          0          0          0          0
>>> 0          0          0   Spurious interrupts
>>> ERR:          0
>>>
>>> # cat /proc/sys/fs/file-nr
>>> 7168    0       766538
>>>
>>>    # wc -l /proc/net/tcp
>>> 886 /proc/net/tcp
>>>
>>>    # wc -l /proc/net/udp
>>> 48 /proc/net/udp
>>>
>>>    # wc -l /proc/net/raw
>>> 2 /proc/net/raw
>>>
>>>    # wc -l /proc/net/unix
>>> 306 /proc/net/unix
>>>
>>>
>>> Rejaine da Silveira Monteiro
>>> Suporte-TI
>>> Jamef Encomendas Urgentes
>>> Matriz - Contagem/MG
>>> Tel: (31) 2102-8854
>>> www.jamef.com.br
>>>
>>>
>>> Em 04-11-2010 16:20, Fernando Ulisses dos Santos escreveu:
>>>> cat /proc/diskstats
>>>> cat /proc/interrupts
>>>> cat /proc/sys/fs/file-nr
>>>> wc -l /proc/net/tcp
>>>> wc -l /proc/net/udp
>>>> wc -l /proc/net/raw
>>>> wc -l /proc/net/unix
>>> __
>>> masoch-l list
>>> https://eng.registro.br/mailman/listinfo/masoch-l
>> __
>> masoch-l list
>> https://eng.registro.br/mailman/listinfo/masoch-l
> __
> masoch-l list
> https://eng.registro.br/mailman/listinfo/masoch-l


More information about the masoch-l mailing list