[GTER] =?iso-8859-1?q?solu=E7=E3o?=pessoal antispam

Henrique Pantarotto henpate at terra.com.br
Tue Jul 15 16:59:43 -03 2003


Pessoal,

desculpem postar mais uma mensagem sobre métodos antiSPAM, mas esta trata-se
de um "follow-up" de uma mensagem postada há vários meses atrás.

Em Janeiro resolvi testar a ferramenta POPFile (http://popfile.sourceforge.net/)
numa conta pessoal que eu recebo MUITOS spams: scanner at cepa.com.br. 
Tenho essa conta desde 1997.  Na ocasião, eu participava de forma
bastante efetiva em newsgroups, e eu acho que é este o motivo desta
conta ser alvo tão forte de spam.

Enfim, passados quase 7 meses, aprovo e recomendo esta ferramenta para
solução pessoal de SPAM.

O método bayesiano cataloga todas as palavras contidas nos e-mails, que
você manualmente classifica como um e-mail "RUIM" (spam) ou "BOM" (livre). 
A partir daí ele monta um coletânea de palavras que nas futuras
mensagens ele irá automaticamente classificar o e-mail como um spam ou
mensagem livre.  Quanto maior as suas coleções de palavras, maior será o
percentual de acerto na classificação.

Acho que se esta solução pudesse ser implementada em larga escala num
provedor, os resultados poderiam ser ótimos.  Ou seja, o usuário seria
responsável pelo gerenciamento dos e-mails "RUIM" e "BOM", e ninguém
seria molestado com os e-mails de verificação, que está causando tanta
polêmica no UOL.  Ainda: o provedor poderia administrar e disponibilizar
como recurso adicional uma coletânea de e-mails "RUINS" (mensagens
indubitavelmente caracterizada de SPAM).  A mesma idéia de "quarentena"
poderia ser implementada para recuperar eventuais falsos-positivos. 
Fazendo isso de forma bastante transparente para o usuário, acredito que
poderia ser uma ferramenta muito interessante.  Falo isso por mim.

A ferramenta de e-mail protegido do Terra, se eu entendi bem, apenas
reproduz em web ferramentas de filtros convencionais já disponíveis há
anos em clientes de e-mail.  Ou seja, não apresenta nenhuma novidade,
ele apenas barra e-mails pelo FROM, SUBJECT e/ou outros campos do
cabeçalho.  Para quem usa webmail, é um auxílio importante, mas não
serve para efetivamente parar spams já que estes alteram estes campos de
forma bastante dinâmica.

Aqui estão as minhas estatísticas desde o último reset em 11 de fevereiro
de 2003, que mostra precisão de 99.11% na classificação de e-mails bons
("livre") dos ruins ("spam"):

Disponibilizei também temporariamente o screenshot em
http://planeta.terra.com.br/arte/pantarotto/popfile.gif

Classification Accuracy
Emails classified: 6,922 
Classification errors: 62 
Accuracy: 99.11% 
--------------------------------------------------------------------------------
Emails Classified
Bucket  Classification Count 
livre     248 (3.58%) 
spam    6,674 (96.41%) 
--------------------------------------------------------------------------------
Word Counts
Bucket   Word Count 
livre   6,750 (33.95%) 
spam   13,129 (66.04%) 


Achei que alguém talvez pudesse se interessar por estas informações e
experiência.


Grande abraço, Henrique.




Forwarded by Henrique Pantarotto <henpate at terra.com.br>
----------------------- Original Message -----------------------
 From:    Henrique Pantarotto <henpate at terra.com.br>
 To:      gter at eng.registro.br
 Date:    Wed, 22 Jan 2003 14:07:16 -0200
 Subject: Re: [GTER] Teorema de Bayes e a caça ao Spam
----

Oi Christiano,

achei um programinha (e que vou testar agora) chamado POPFile.  Pelo
que entendi, ele cria um servidor de POP3 local na tua máquina, que nada
mais faz do que proxiar as conexões para o teu POP3 real, analizando e
classificando as mensagens usando o método "Bayesian".

Existe um esquema de "buckets" (baldes?) que você vai "ensinando" ele o
que são as mensagens ruins e o que são as mensagens boas.  A idéia é
interessante, pois funciona com qualquer cliente de e-mail que use POP3,
inclusive no Windows.

O link que você passou fazia referencia a uma ferramenta parecida
(bogofilter), mas este parecia exigir que tua conta de e-mail estivesse
direta num shell Unix (mensagens em mbox).

O site do POPFile é http://popfile.sourceforge.net/.  O forum de
discussão no site parece bem ativo, o que indica no mínimo um alto sinal
de interesse e participação pública.

Vou experimentar num email antigo que eu tenho e que recebo uns 100
spams diários (sendo 30% em Koreano, pode?).


Abraços, Henrique.


On Wed, 22 Jan 2003 10:58:34 -0200
Christiano Anderson <canderson at terra.com.br> wrote:

> Ja li algumas mensagens de pessoas citando Teorema de Bayes para
> alternativa contra spam. 
> 
> A materia abaixo foi feita por um medico recem-formado que tambem é
> desenvolvedor Debian, bem interessante:
> 
> http://people.debian.org/~spectra/files/bayes_spam.txt
> 
> 
> 
> --
> GTER list    http://eng.registro.br/mailman/listinfo/gter


--------------------- Original Message Ends --------------------




More information about the gter mailing list