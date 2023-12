Le nostre caselle di posta elettronica vengono inondate quotidianamante da un flusso ininterrotto di email, molte delle quali inquadrabili come spam, per questo motivo è fondamentale che servizi come Gmail dispongano di armi sufficientemente efficaci per individuare questi contenuti indesiderati e filtrare la posta in arrivo, a tutto vantaggio della sicurezza e dell’esperienza d’uso degli utenti.

Gmail più forte contro lo spam grazie a RETVec

Quella contro lo spam è una battaglia senza fine e in continua evoluzione e l’ultima novità di Gmail è stata appena illustrata da Google nella sua efficacia: la tecnologia impiegata ha reso possibile un miglioramento del 38% nell’identificazione del testo.

Servizi come Gmail, ma anche Google Play e YouTube — spiega Google — si affidano a modelli di classificazione del testo per riuscire a riconoscere contenuti potenzialmente dannosi (come ad esempio attacchi phishing, commenti inappropriati e scam). Queste tipologie di testo risultano più difficili da classificare per i modelli di machine learning, in quanto i malintenzionati utilizzano varie tecniche — omoglifi (caratteri che appaiono simili a lettere vere), caratteri invisibili, parole chiave in eccesso e altre “adversarial text manipulations” — studiate proprio al fine di eludere i classificatori.

La contromossa del colosso di Mountain View consiste nel puntare su RETVec (Resilient & Efficient Text Vectorizer), un nuovo approccio messo a punto da Google Research (è open source) che aiuta i modelli a raggiungere prestazioni di classificazione allo stato dell’arte e per ridurre contestualmente i costi computazionali, il tutto supportando “ogni linguaggio e tutti i caratteri UTF-8 senza la necessità di preelaborazione del testo“. Insomma, un sistema che si presta a utilizzi su dispositivi mobili, via web e a casi d’uso su larga scala.

Nel caso di Gmail, RETVec ha reso possibile un riconoscimento dello spam più efficace del 38%, il tutto riducendo il tasso di falsi positivi del 19,4% e l’utilizzo della Tensor Processing Unit (TPU) addirittura nella misura dell’83%. Google spiega che RETVec ha reso possibili dei miglioramenti così importanti grazie ad un modello di word embedding particolarmente leggero (circa 200 parametri), rendendo così possibile una riduzione delle dimensioni del modello Transformer a prestazioni invariate o migliori e con la possibilità ulteriore di ripartire l’attività di calcolo tra host e TPU in modo efficiente (in termini di rete e di memoria).

Google riferisce che i test condotti su RETVec nell’ultimo anno hanno dato risultati estremamente positivi. Chi fosse interessato a provarlo per il proprio scenario di utilizzo o per scopi di ricerca, può fare riferimento al tutorial disponibile a questo link.

