[MASOCH-L] regras spamassassin
Leandro Carlos Rodrigues
leandro at allchemistry.com.br
Thu Nov 24 09:32:01 -03 2016
Em 24/11/2016 09:27, Leonardo Rodrigues escreveu:
>
> Estou estudando o SPFBL e começando a implementá-lo em um servidor
> pequeno pra entender direito como ele funciona. Mas nunca pensei em
> desativar o spamassassin em definitivo, não po enquanto pelo menos.
Acho que o grande problema do SA é que a técnica de filtro bayesiano
depende exclusivamente de alimentação de amostras num fluxo constante
para ser efetivo. Isso faz com que ele sempre esteja evoluindo para
conseguir classificar melhor a nova realidade a cada instante. Os
spammers sempre estão evoluindo a forma de fazer conteúdo de SPAM então
se um treino for feito hoje, amanhã já não terá a mesma eficiência.
Depois de muito tempo, se não houver mais treinos, a eficiência dele
será tão ruim, que dará a impressão que ele está falhando. Mas não seria
uma falha e sim falta de treino para a nova realidade.
Tem outro problema muito grande no SA, que é no próprio conceito de
SPAM, que passa necessariamente pelo fator de classificação do
destinatário. Certos tipos de mensagens geram polêmica entre os
destinatários se é ou não SPAM. Conceitualmente, cada grupo de
destinatários está certo. Ai nesse caso você confunde o SA no treino
pois duas amostras idênticas geram classificações diferentes pelos dois
grupos. Sem contar no problema que muitos não denunciam, trazendo
distorção na classificação. Para resolver isso, o SA teria que criar um
treino para cada destinatário. Mas ai você explodiria ainda mais o
consumo de CPU e perderia no lado da colaboração, fazendo com que fosse
necessário grande esforço individual para chegar no mesmo resultado.
Eu acho que sacrificar tanta CPU e tempo humano para um resultado ruim
(na média) não faz muito sentido. Mas eu só notei isso depois de anos
usando o SA. Antes tarde do que nunca. :-)
More information about the masoch-l
mailing list