[GTER] Namebench para sites mais acessados por brasileiros

Rubens Kuhl rubensk at gmail.com
Fri Oct 4 14:45:23 -03 2013


Pessoal,

Eu já sugeri várias vezes o namebench (https://code.google.com/p/namebench/)
para teste de performance de DNS recursivo. Porém, as fontes de dados dele
incluem ou o seu próprio cache do browser ou a lista global de mais
acessados do Alexa, e eu queria montar uma lista de mais acessados por
brasileiros no Alexa (http://www.alexa.com/topsites/countries/BR).

Para isso, um pouco de shell scripting (créditos: Herbert Faleiros e Hugo
Kobayashi) para gerar um arquivo no mesmo formato do arquivo que vem com o
namebench:

 alexabrnamebench.sh

#!/bin/sh

base="http://www.alexa.com/topsites/countries;"

for page in {0..20}; do
lynx -dump -source "${base}${page}/BR" | grep -E topsites-label | sed -E
's/.+>(.+)<.+/\1/g' | awk '{ print "A " $1 "."}'
done

Porém, o arquivo final fica pequeno é ignorado pelo namebench... a solução
foi duplicar as entradas. Assim, é preciso fazer cd para o diretório onde
se encontra o alexa-top-2000-domains.txt (que num MacOS será algo
como /Applications/namebench.app/Contents/Resources/data, mas em outros
ambientes será diferente) e fazer algo como:

~/alexabrnamebench.sh > ~nomesalexa.txt
mv alexa-top-2000-domains.txt alexa-top-2000-domains.orig
cat ~/nomesalexa.txt > alexa-top-2000-domains.txt
cat ~/nomesalexa.txt >> alexa-top-2000-domains.txt

Depois é só rodar o namebench escolhendo o Alexa 2000 (mas que na verdade
vai ser o Alexa 500 BR) como fonte de hosts.

Algo que notei é que o arquivo Alexa 2000 contém às vezes o apex do domínio
e às vezes www.<nome do domínio>. Isso seria mais preciso, mas a fonte das
informações já omite se o host mais acessado do domínio é o próprio apex,
www. ou algum outro... e de fato há pelos menos 4 (que depois de duplicado
viram 8) da lista gerada dessa forma que nem existem. Mas apesar dessa
limitação, o resultado parece melhor do que usar a lista global do Alexa ou
o próprio cache do browser em representar os usuários médios.

Quem quiser utilizar o arquivo gerado agora há pouco, o link é
http://goo.gl/dmrt5y , mas em um mês ele já estará desatualizado.


Rubens

PS: Acessando via PTT-SP, o recursivo mais rápido foi
dns1.gigadns.com.br(189.38.95.95).



More information about the gter mailing list