[MASOCH-L] regras spamassassin

Leandro Carlos Rodrigues leandro at allchemistry.com.br
Thu Nov 24 09:32:01 -03 2016


Em 24/11/2016 09:27, Leonardo Rodrigues escreveu:
>
>     Estou estudando o SPFBL e começando a implementá-lo em um servidor 
> pequeno pra entender direito como ele funciona. Mas nunca pensei em 
> desativar o spamassassin em definitivo, não po enquanto pelo menos.

Acho que o grande problema do SA é que a técnica de filtro bayesiano 
depende exclusivamente de alimentação de amostras num fluxo constante 
para ser efetivo. Isso faz com que ele sempre esteja evoluindo para 
conseguir classificar melhor a nova realidade a cada instante. Os 
spammers sempre estão evoluindo a forma de fazer conteúdo de SPAM então 
se um treino for feito hoje, amanhã já não terá a mesma eficiência. 
Depois de muito tempo, se não houver mais treinos, a eficiência dele 
será tão ruim, que dará a impressão que ele está falhando. Mas não seria 
uma falha e sim falta de treino para a nova realidade.

Tem outro problema muito grande no SA, que é no próprio conceito de 
SPAM, que passa necessariamente pelo fator de classificação do 
destinatário. Certos tipos de mensagens geram polêmica entre os 
destinatários se é ou não SPAM. Conceitualmente, cada grupo de 
destinatários está certo. Ai nesse caso você confunde o SA no treino 
pois duas amostras idênticas geram classificações diferentes pelos dois 
grupos. Sem contar no problema que muitos não denunciam, trazendo 
distorção na classificação. Para resolver isso, o SA teria que criar um 
treino para cada destinatário. Mas ai você explodiria ainda mais o 
consumo de CPU e perderia no lado da colaboração, fazendo com que fosse 
necessário grande esforço individual para chegar no mesmo resultado.

Eu acho que sacrificar tanta CPU e tempo humano para um resultado ruim 
(na média) não faz muito sentido. Mas eu só notei isso depois de anos 
usando o SA. Antes tarde do que nunca. :-)




More information about the masoch-l mailing list