[caiu] Intermitência em nó do Google afetando drive, docs e calendar.

Roberto Alcântara roberto em eletronica.org
Sex Mar 22 17:41:35 -03 2019


Prezados,

Após varias horas verificando a origem de reclamações de usuários durante o
uso de serviços do Google (drive, docs e calendar), concluímos que há um nó
problemático na infra do Google.

Sempre que a resolução de nomes p/ [drive,docs,calendar].google.com cai
nesse cara:  gru06s34-in-f14.1e100.net (172.217.30.78) os serviços ficam
ruim, notoriamente p/ abrir a pagina inicial do serviço sem conteúdo em
cache.

Não há indisponibilidade generalizada, apenas intermitência e o sintoma é a
demora excessiva p/ abrir a página, erros 502, 403 e eventualmente
timeouts, que requerem o reload por parte do usuário. Após o reload algumas
vezes abre normalmente e depois que o conteúdo entra em cache os sintomas
desaparecem na maioria das vezes, por algum tempo.

O TTL da entrada no dns é de 300s: ao expirar se resolver em outro nó
ótimo, mas com frequência retorna o mesmo endereço em consultas posteriores.

Confirmamos através de 3 operadoras independentes, com origem em
Fortaleza-CE. Embora eventualmente o Google possa usar anycast nestes
endereços, não parece ser o caso - aqui de Fortaleza estamos indo para SP,
aparentemente.

Analisando os logs do Proxy concluímos que cerca de 20% das requisições
acabam em  erros 502 ou 403 quando enviadas para este nó .78. Para os
demais que testamos na mesma faixa (.74, .100 e .110) todas as requisições
são atendidas com sucesso, sem erros 50x ou 40x. Estas estatísticas são
especificamente para a URL drive.google.com* , com cerca de 250 requisições
por hora.  Não contabilizei as demais URLs, que inclusive possuem mais
frequência em nosso ambiente.

No caso do nosso proxy corporativo mitigamos com sucesso fixando
temporariamente a resolução em um dos endereços "saudáveis", a despeito dos
problemas que eventualmente isso possa causar. Como possuímos assinatura
corporativa dos serviços do Google, vamos tentar abrir por lá um incidente
para ver se chega na pessoa certa.

Confirmo o problema a pelo menos 7 dias.  Nossa mitigação foi realizada a 2
dias e sanou temporariamente o problema. Testei novamente este nó hoje e
continua com o mesmo sintoma.

O relato foi basicamente para anunciar o problema que não é de diagnóstico
tão rápido e eventualmente pode estar afetando alguns de vocês.

Sds,

 - Roberto


Mais detalhes sobre a lista de discussão caiu