[GTER] SPAMs referenciando sites *.TMP.BR

Sun Jan 18 13:21:29 -02 2004

On Sun, 18 Jan 2004, Durval Menezes wrote:

> [Nota 1]: para SPAMs "normais", meu bayesian apresenta menos de 5% de
> falsos negativos e um numero insignificante de falsos positivos; para
> estes emails com longas sequencias de palavras escolhidas
> aleatoriamente, mesmo com algum treinamento meu bayesian esta'
> apresentando da ordem de 50% de falsos negativos -- como era de se
> esperar. O que e' pior, suspeito que se eu continuar a treinar meu
> Bayesian apresentando estes falsos negativos como "SPAM", as tabelas de
> probabilidade do mesmo vao acabar poluidas resultando no aumento de
> falsos positivos...

desde que o uso de filtros bayesianos se tornou regra, os spammers vem fazendo
isso de injetar uma quantidade grande de ruído para enganá-los. todo processo
de estimação bayesiana depende da quantidade de inovação (informação nova)
carregada pelas novas entradas. É assim, por exemplo, no filtro de Kalman.
Quando a quantidade de inovação é muito grande a variância do estimador não
converge para valores baixos (equação de Riccati no caso do filtro de Kalman),
o "ganho" do filtro permanece alto e ele acaba ficando instável. Aparentemente
alguém na comunidade dos spammers também andou estudando teoria de estimação.

acho que esta mensagem e a thread que ela pode originar ficariam melhor na
spam-l, para onde estou copiando esta resposta, embora a questão dos filtros
de conteúdo em si tanha algo a ver com engenharia.

há também na mensagem do Durval aspectos de segurança que são assunto dos
abuse at da.vida e no nbso at nic.br.

danton