[MASOCH-L] CRM114 ou OSBF-Lua?
Fidelis Assis
fidelis at pobox.com
Fri Feb 9 00:12:26 -03 2007
Oi Durval,
Durval Menezes escreveu:
> Alo Marlon,
>
> On Thu, Feb 08, 2007 at 01:20:03PM -0200, MARLON BORBA wrote:
>> O que vem a ser CRM114 e OSBF-Lua, ó sábios da Masoch?
>
> O CRM114 e' um "framework" para classificacao de texto (nao e' limitado
> ao uso como antispam, apesar de ser frequentemente usado para isso).
Ambos, CRM114 e OSBF-Lua, são genéricos, embora o algoritmo OSBF seja
mais otimizado para duas classes (spam e não spam, p. ex.). Um exemplo
de classificador de textos genérico baseado no OSBF-Lua é o
"Moonfilter", em http://www.siefkes.net/software/moonfilter/
A diferença é que no CRM114 há outros classificadores disponíveis (OSBF,
OSB, Winnow, Hyperspace, etc). No OSBF-Lua implementei apenas o OSBF
porque é o que apresenta melhores precisão e velocidade, com baixo uso
de armazenamento (memória e disco), e por não achar que valha a pena
investir tempo nas outras opções para anti-spam.
> O OSBF-Lua e' um modulo C que implementa os algoritmos OSB (Orthogonal
> Sparse Bigrams) e Exponential Differential Document Count (EDDC),
> implementados originalmente no CRM114, de forma a poderem ser chamados
> por scripts escritos em Lua; o mais "famoso" destes scripts e' o
> spamfilter.lua, que combina os dois algoritmos acima com um outro
> chamado TONE-HR (Train on Or Near Error with Header Reinforcement) e
> aplica o conjunto dos tres com classificacao bayesiana classica para
> a filtragem de SPAMs.
>
> Um bom paper sobre o assunto e' este aqui:
> http://osbf-lua.luaforge.net/papers/OSBF-Lua_VBFeb07.pdf
Abraços,
--
Fidelis Assis
More information about the masoch-l
mailing list