[MASOCH-L] Spam Archives

Fidelis Assis fidelis at embratel.net.br
Fri May 13 12:02:42 BRT 2005


jczucco at ucs.br wrote:
> Olá a todos da lista.
> 
> Minha situação é a seguinte: estou realizando um trabalho de conclusão, onde
> estarei analisando várias técnicas de spam para medir seu grau de acerto e
> erros (falso positivos e falso negativos).
> 
> Base de e-mails spam eu tenho milhares, alguns pessoais e outros que peguei na
> internet (uma base de mais de 100 mil spams), porém estou com problema para
> conseguir uma base grande de e-mails que NÃO sejam spam.
[...]

O Spamassassin disponibiliza um corpus público em http://spamassassin.org/publiccorpus.

Particularmente, no CRM114 usamos o sub-conjunto abaixo para desenvolvimento e testes comparativos:

http://spamassassin.org/publiccorpus/20030228_easy_ham.tar.bz2
http://spamassassin.org/publiccorpus/20030228_hard_ham.tar.bz2
http://spamassassin.org/publiccorpus/20030228_spam_2.tar.bz2

São 4147 mensagens, sendo 2750 hams e 1397 spams. Não representa a proporção típica de hoje, mas permite comparações entre as técnicas e algoritmos do CRM114 desde as primeiras versões. Como é uma base pública, qualquer um pode reproduzir seus testes e comparar com outros filtros. Naturalmente, você pode acrescentar spams (é o que não falta) se quiser uma proporção mais característica.

Se precisar de alguma ajuda com o CRM (em particular com o algo OSBF), me avisa em private.

-- 
Fidelis Assis


More information about the masoch-l mailing list