Google Lens è uno strumento che garantisce agli utenti grandi potenzialità e che in tutta una serie di casi potrebbe rivelarsi estremamente utile.

Grazie a computer vision, machine learning e Knowledge Graph, Google Lens permette alle persone di trasformare le cose che vedono nel mondo reale in una casella di ricerca visiva, consentendo loro di identificare oggetti come piante e animali oppure di copiare e incollare testo dal mondo reale nel loro telefono.

Con l’obiettivo di mettere questo strumento a disposizione anche di chi possiede smartphone meno prestanti, il colosso di Mountain View ha realizzato una versione di Google Lens per Google Go, ossia l’app di ricerca per dispositivi entry-level, con una serie di funzionalità progettate per aiutare le persone che affrontano la lettura e altre sfide basate sulla lingua.

Quando gli utenti puntano la fotocamera verso un testo che non comprendono, Lens in Google Go può tradurlo e leggerlo ad alta voce, evidenziando anche ogni parola mentre viene letta, in modo che gli utenti possano seguirla.

Per creare uno strumento universale in grado di catturare in modo affidabile immagini di alta qualità con un ritardo minimo e in un’ampia gamma di device (molti dei quali con caratteristiche tecniche di fascia molto bassa), gli sviluppatori hanno reso Lens in Google Go una delle prime soluzioni ad adottare una nuova libreria di supporto Android chiamata CameraX.

Dopo che Lens in Google Go ha acquisito un’immagine, deve dare un senso alle forme e alle lettere che costituiscono le parole, le frasi e i paragrafi. Per fare ciò, l’immagine viene ridimensionata e trasferita al server Lens, dove verrà eseguita l’elaborazione.

Una volta che le singole parole sono state riconosciute, Lens deve determinare come adattarle insieme (un giornale, per esempio, è suddiviso in colonne, con titoli, testo dell’articolo e pubblicità). Lens utilizza CNN per rilevare blocchi di testo coerenti come colonne o testo in uno stile o un colore coerenti e poi, all’interno di ogni blocco, usa segnali come l’allineamento del testo, il linguaggio e la relazione geometrica dei paragrafi per determinare il loro ordine di lettura finale.

Per fornire agli utenti le informazioni più utili, le traduzioni devono essere accurate e contestuali e Google Lens usa gli algoritmi di traduzione automatica neurale (NMT) di Google Translate per tradurre intere frasi alla volta, così da preservare la grammatica e la dizione adeguate.

Infine, per leggere il testo ad alta voce, il sistema utilizza Google Text-to-Speech (TTS).

Per ulteriori informazioni vi rimandiamo al blog di Google.