[GTER] Namebench para sites mais acessados por brasileiros
Rubens Kuhl
rubensk at gmail.com
Fri Oct 4 14:45:23 -03 2013
Pessoal,
Eu já sugeri várias vezes o namebench (https://code.google.com/p/namebench/)
para teste de performance de DNS recursivo. Porém, as fontes de dados dele
incluem ou o seu próprio cache do browser ou a lista global de mais
acessados do Alexa, e eu queria montar uma lista de mais acessados por
brasileiros no Alexa (http://www.alexa.com/topsites/countries/BR).
Para isso, um pouco de shell scripting (créditos: Herbert Faleiros e Hugo
Kobayashi) para gerar um arquivo no mesmo formato do arquivo que vem com o
namebench:
alexabrnamebench.sh
#!/bin/sh
base="http://www.alexa.com/topsites/countries;"
for page in {0..20}; do
lynx -dump -source "${base}${page}/BR" | grep -E topsites-label | sed -E
's/.+>(.+)<.+/\1/g' | awk '{ print "A " $1 "."}'
done
Porém, o arquivo final fica pequeno é ignorado pelo namebench... a solução
foi duplicar as entradas. Assim, é preciso fazer cd para o diretório onde
se encontra o alexa-top-2000-domains.txt (que num MacOS será algo
como /Applications/namebench.app/Contents/Resources/data, mas em outros
ambientes será diferente) e fazer algo como:
~/alexabrnamebench.sh > ~nomesalexa.txt
mv alexa-top-2000-domains.txt alexa-top-2000-domains.orig
cat ~/nomesalexa.txt > alexa-top-2000-domains.txt
cat ~/nomesalexa.txt >> alexa-top-2000-domains.txt
Depois é só rodar o namebench escolhendo o Alexa 2000 (mas que na verdade
vai ser o Alexa 500 BR) como fonte de hosts.
Algo que notei é que o arquivo Alexa 2000 contém às vezes o apex do domínio
e às vezes www.<nome do domínio>. Isso seria mais preciso, mas a fonte das
informações já omite se o host mais acessado do domínio é o próprio apex,
www. ou algum outro... e de fato há pelos menos 4 (que depois de duplicado
viram 8) da lista gerada dessa forma que nem existem. Mas apesar dessa
limitação, o resultado parece melhor do que usar a lista global do Alexa ou
o próprio cache do browser em representar os usuários médios.
Quem quiser utilizar o arquivo gerado agora há pouco, o link é
http://goo.gl/dmrt5y , mas em um mês ele já estará desatualizado.
Rubens
PS: Acessando via PTT-SP, o recursivo mais rápido foi
dns1.gigadns.com.br(189.38.95.95).
More information about the gter
mailing list