Cos’è un filtro bayesiano e perché è un prezioso alleato antispam

  • ilger.com
  • BLOG
  • Cos’è un filtro bayesiano e perché è un prezioso alleato antispam
Cos'è un filtro bayesiano

Cos'è un filtro bayesiano

La posta elettronica oggi rappresenta uno strumento fondamentale per qualsiasi impresa e organizzazione, pubblica o privata. Non è un caso, quindi, che sia costantemente presa di mira da hacker e da altri malintenzionati. Uno dei fenomeni più insidiosi che riguardano la casella di posta elettronica è sicuramente quello dello spam, ovvero dell’invio massivo di email promozionali non richieste, spesso contenenti codici maligni. In questo contesto è fondamentale adottare una serie di comportamenti preventivi e disporre di una casella di posta elettronica dotata di filtro anti-spam. Ma come funzionano i filtri anti-spam? Sorprenderà saperlo, ma i filtri più efficienti sfruttano una soluzione matematica risalente a ben tre secoli fa, il filtro bayesiano.

Filtrare lo spam, infatti, non è un’operazione semplice. Alcuni filtri potrebbero lasciar passare troppi messaggi, lasciando che la nostra casella di posta si riempia in breve tempo di spam. Altri filtri, invece, potrebbero avere criteri troppo selettivi e questo li porta a cestinare comunicazioni attese e molto importanti, cosa che per molte aziende si traduce in vere e proprie perdite economiche. La soluzione? Ce la dà Thomas Bayes, matematico e ministro presbiteriano britannico del Settecento.

 

L’importanza dell’analisi statistica del linguaggio

I primi filtri antispam si basavano sulla comparsa o meno di determinate parole nel testo dell’email, senza adeguata contestualizzazione. Un messaggio proveniente da un mittente sconosciuto nel quale apparivano termini inerenti alla compravendita, ai medicinali, o alla pornografia, veniva automaticamente cestinato. Tuttavia, molti termini possono essere utilizzati in diversi contesti e con diverse intenzioni. Qui, il nostro filtro ci viene in aiuto. Il filtro bayesiano opera a livello statistico, basandosi sulle probabilità di ricorrenza di un termine, analizzando la frequenza d’uso di certi termini in base al campione di messaggi che l’utente ha definito “spam”.

La prima fase è quindi una vera e propria fase di apprendimento di quelli che sono i termini da filtrare. Ad esempio, la parola “pillola” compare in molti messaggi di spam e quindi può essere registrata come parola a rischio. Tuttavia, questa identificazione non basta. Una volta identificata, una parola a rischio viene poi contestualizzata e comparata alle altre del testo. Ne consegue che un lungo messaggio in cui un utente che conosciamo ci scrive di salute non verrà cestinato solo perché compare la parola “pillola”. Una mail contenente la parola “pillola” verrebbe filtrata nel caso arrivasse da un mittente sconosciuto, soprattutto se la maggior parte delle parole utilizzate nel testo risultasse “a rischio”, ad esempio, rimandando alla compravendita online (“clicca”, “compra”, “offerta”).

 

Apprendimento e personalizzazione

L’apprendimento automatico è un fattore fondamentale per l’efficienza di un filtro antispam e si lega a un ampio margine di personalizzazione del filtraggio. È chiaro, infatti, che un professionista del settore farmaceutico si troverà molto spesso a ricevere email contenenti parole inerenti alla compravendita di farmaci. Allo stesso tempo, sarà una priorità per lui ricevere tutti i messaggi dei suoi collaboratori e clienti. Autoapprendimento e personalizzazione sono caratteristiche irrinunciabili per un filtro antispam efficiente.

 

Un filtraggio antispam sempre più preciso ed efficiente

Più il filtro antispam viene utilizzato più perfeziona il suo funzionamento. Diverse ricerche hanno dimostrato che la precisione dei filtri antispam odierni supera ampiamente la facoltà umana di identificare lo spam. Per noia, per distrazione o per errore, un essere umano individua meno spam di un antispam che ricorre a un filtro bayesiano. Libra Esva User Console, la zimlet integrata nella Webmail Zimbra, ricorre proprio al filtraggio bayesiano per gestire la recezione dell’email. I server antispam utilizzati sono dedicati al cliente, gestiti e monitorati in modo esclusivo da ilger.com, su server farm certificate ISO 9001:2008 e 27001:2005 presenti sul territorio nazionale. Il filtraggio garantisce l’intercettazione del 99% dello spam (un 95% per le email con caratteri a doppio byte). Per saperne di più, contattaci subito e ricevi una consulenza personalizzata in base alle tue esigenze.