Dic 01, 2023 In evidenza, News, Prodotto, RSS, Tecnologia
Google ha rilasciato RETVec, uno strumento open-source per proteggere gli utenti dalle email di spam e phishing. RETVec è un text vectorizer, ovvero è in grado di trasformare il testo in input in un vettore numerico per analizzarlo e individuare potenziali contenuti malevoli.
Lo strumento è stato addestrato usando il similarity learning, un ramo del machine learning che si occupa di “istruire” i modelli a riconoscere la similarità o la differenza tra due oggetti. RETVec è pensato per individuare tutte le manipolazioni a livello di carattere, come l’inserimento, la cancellazione, errori di battitura, omoglifi e sostituzioni LEET dove si sostituiscono caratteri giocando sulla similarità dei simboli (es: “ci40” al posto di “ciao”).
Gmail, come altre piattaforme, sfrutta da tempo modelli di classificazione del testo per individuare email di phishing e scam, ma gli attaccanti manipolano i testi in modo che non vengano considerati malevoli dal classificatore, per esempio usando gli omoglifi o inserendo caratteri invisibili nelle email.
Il team dietro RETVec spiega che lo strumento funziona con ogni lingua e con tutti i caratteri UTF-8 senza necessità di effettuare il pre-processing del testo, rendendolo ideale per l’uso sul web e on-device. RETVec usa un modello di word embedding molto leggere da circa 200.000 parametri.
I risultati sono promettenti: sostituendo REVTec al precedente modello di classificazione, il tasso di identificazione dello spam è aumentato del 38% e i falsi positivi si sono ridotti del 19,4%. Ottimi risultati anche per l’uso della TPU che col nuovo modello è diminuito dell’83%, rendendo così RETVec “uno dei più grandi aggiornamenti di sicurezza degli ultimi anni”.