[MASOCH-L] CRM114 ou OSBF-Lua?

Fidelis Assis fidelis at pobox.com
Fri Feb 9 00:12:26 BRST 2007


Oi Durval,

Durval Menezes escreveu:
> Alo Marlon,
> 
> On Thu, Feb 08, 2007 at 01:20:03PM -0200, MARLON BORBA wrote:
>> O que vem a ser CRM114 e OSBF-Lua, ó sábios da Masoch?
> 
> O CRM114 e' um "framework" para classificacao de texto (nao e' limitado
> ao uso como antispam, apesar de ser frequentemente usado para isso). 

Ambos, CRM114 e OSBF-Lua, são genéricos, embora o algoritmo OSBF seja 
mais otimizado para duas classes (spam e não spam, p. ex.). Um exemplo 
de classificador de textos genérico baseado no OSBF-Lua é o 
"Moonfilter", em http://www.siefkes.net/software/moonfilter/

A diferença é que no CRM114 há outros classificadores disponíveis (OSBF, 
OSB, Winnow, Hyperspace, etc). No OSBF-Lua implementei apenas o OSBF 
porque é o que apresenta melhores precisão e velocidade, com baixo uso 
de armazenamento (memória e disco), e por não achar que valha a pena 
investir tempo nas outras opções para anti-spam.

> O OSBF-Lua e' um modulo C que implementa os algoritmos OSB (Orthogonal
> Sparse Bigrams) e Exponential Differential Document Count (EDDC),
> implementados originalmente no CRM114, de forma a poderem ser chamados
> por scripts escritos em Lua; o mais "famoso" destes scripts e' o
> spamfilter.lua, que combina os dois algoritmos acima com um outro
> chamado TONE-HR (Train on Or Near Error with Header Reinforcement) e
> aplica o conjunto dos tres com classificacao bayesiana classica para 
> a filtragem de SPAMs.
> 
> Um bom paper sobre o assunto e' este aqui:
> 	http://osbf-lua.luaforge.net/papers/OSBF-Lua_VBFeb07.pdf


Abraços,
-- 
Fidelis Assis


More information about the masoch-l mailing list