[MASOCH-L] Conexões NFS travando

Eduardo Schoedler listas at esds.com.br
Tue Aug 28 14:01:34 BRT 2012


Em 28 de agosto de 2012 12:11, Henrique de Moraes Holschuh <
henrique.holschuh at ima.sp.gov.br> escreveu:

> On 28-08-2012 11:39, Eduardo Schoedler wrote:
>
>> Em 28 de agosto de 2012 11:28, Henrique de Moraes Holschuh<
>> henrique.holschuh at ima.sp.gov.**br <henrique.holschuh at ima.sp.gov.br>>
>>  escreveu:
>>
>>  1. Atualize o firmware das caixas.  Quem tem servidor DELL ou HP
>>> *não* tem a opção de não atualizar, o firmware dessas máquinas
>>> interfere muito.  Se a DELL ou HP soltam uma atualização crítica
>>> ou importante, precisa aplicar.
>>>
>>>
>> Pois pode ser muita coincidência, mas estou achando que foi
>> justamente depois das atualizações de BIOS, BMC, SAS e Broadcom que
>> começou a "travação".
>>
>
> Pode acontecer.  Por isso, atualize de novo :p  E entre em contato com o
> suporte técnico deles.
>

Já estão na última versão, o chamado foi bem recente.
A única opção é reaplicar os firmwares.



> Aliás, os *discos* também tem atualização, preste atenção nisso, porque
> nem sempre a porcaria do site (pelo menos da HP) acha essas atualizações
> facilmente.


Vi isso também, existem firmwares para a caixa (storage DAS) e os seus
discos também, esses não cheguei a aplicar.



> 2. Tente o kernel 2.6.32 mais novo.
>>>
>>>
>> Já tentei vários kernels
>>
>
> Eu vi a lista, são todos muito novos.  Tente o 2.6.32 estável mais novo,
> eu não recomendei ele à toa...  Em geral, bons test-points são os
> long-term 2.6.32.x, 3.0.x ou 3.2.x, e o kernel estável mais novo (com x
>
>> 2, ainda costuma ter muita regressão no .0 e .1).
>>
>
>  3. Faz diferença qual a filesystem que está sendo exportada via
>>> NFS, devido ao tipo de cache que o NFS faz dentro do kernel.
>>> Problemas com NFS podem acontecer com um tipo de filesystem, e não
>>> acontecer em outro tipo devido a diferenças de implementação delas
>>> no kernel.
>>>
>>
>>
>> JFS?
>>
>
> Ok, quase ninguém usa a JFS, portanto as chances de ser o único com
> problemas na vizinhança fica bem maior.  Seria muito complicado colocar
> uma partição ext4 ou xfs, e testar se nela acontece o problema?  Essas
> duas são as filesystems mais estáveis e bem testadas.
>

É um volume bem grande de dados, teria de fazer uma manobra gigante para
acomodar todos os dados em outros lugares e depois retorná-los... mas se
for a última alternativa, darei um jeito de fazer.



> De qualquer forma, depois de verificar com a Dell -- pode sempre ser
> algum nabo no firmware do NIC -- acho que você vai precisar reportar o
> bug direto com o pessoal do kernel (mais fácil via a equipe do Gentoo,
> mas pode ser diretamente no bugzilla.kernel.org).
>

O firmware da NIC (broadcom) eu apliquei depois de ter começado o problema
de travamento.


PS: tente desligar as acelerações por hardware do NIC usando o ethtool,
> as vezes ajuda.


Já tirei flow-control (pause frames), todos os offload e buffers... não só
da interface da conexão, tirei em todas dos 2 servidores.

Já tentei também NFS, NFS4, tcp... agora, os tunings estão assim:

server:/mnt/storage on /mnt/storage type nfs4
(ro,noexec,nosuid,noatime,noacl,tcp,intr,hard,timeo=20,retrans=10,rsize=32768,wsize=32768,addr=10.100.100.1,clientaddr=10.100.100.2)


No lado do server, só aumentei a quantidade de daemons:
OPTS_RPC_NFSD="--no-udp -d 16" (já tentei com e sem --no-udp)
OPTS_RPC_MOUNTD="-d all -t 16"

-- 
Eduardo Schoedler


More information about the masoch-l mailing list