Proprio in questi minuti si sta svolgendo l’annuale conferenza Google I/O, durante la quale il colosso di Mountain View mostrerà a tutti gli appassionati del settore, nonché agli addetti ai lavori, tutte le novità in sviluppo. Tra le varie novità Google ha presentato Project Astra, una nuova applicazione mossa dall’intelligenza artificiale del colosso, o meglio come lo definisce l’azienda un “agente reattivo vedente e parlante avanzato”; scopriamo insieme di cosa si tratta.

Project Astra utilizza la fotocamera dello smartphone per fare…di tutto

Durante lo svolgimento del Google I/O l’azienda ha mostrato un video di presentazione di Project Astra, si tratta di un’applicazione che sfrutta la fotocamera dello smartphone e si presenta con un’interfaccia minimale, un semplice mirino che aiuta l’utente a capire cosa inquadrare con lo smartphone.

Il video di presentazione ci ha mostrato le potenzialità del nuovo strumento: una donna ha inquadrato la stanza in cui si trovava effettuando una panoramica dell’ambiente, chiedendo all’app di avvisarla nel momento in cui avesse individuato un oggetto in grado di riprodurre suoni; poco dopo, un altoparlante di fianco ad un monitor ha spinto l’intelligenza artificiale a rispondere all’utente, dicendo che vedeva uno speaker in grado di emettere suoni.

La donna ha quindi inquadrato l’altoparlante disegnando sul display una freccia che indicava una determinata componente del dispositivo, chiedendo al contempo all’app spiegazioni al riguardo; senza alcuna esitazione Gemini ha fornito le spiegazioni richieste, dicendo “Questo è il tweeter. Produce suoni ad alta frequenza”.

L’esperimento procede fino ad un aspetto davvero interessante, l’utente inquadra un monitor dove è presente del codice, chiedendo all’app di cosa si tratta: l’applicazione è subito in grado di riconoscere che si tratta di codice informatico, ma non si limita a questo e fornisce anche dettagli in merito spiegando alla donna parti del codice.

In seguito l’utente inquadra una finestra e l’app è subito in grado di identificare il luogo in cui si trova l’edificio, se tutto ciò non fosse già notevole, ad un certo punto la donna chiede all’assistente se avesse visto i sui occhiali; bene, l’assistente, nonostante l’oggetto in questione fosse fuori dall’inquadratura, risponde senza esitazione che gli occhiali erano stati lasciati sulla scrivania, vicino alla mela rossa.

Proprio gli occhiali sono i protagonisti della seconda parte del video che potete vedere qui sopra, la donna li indossa e scopriamo che si tratta di un qualche tipo di occhiali smart: l’utilizzo è simile a quello già visto sfruttando la fotocamera dello smartphone, l’assistente interagisce con l’utente senza esitazione, proponendo soluzioni alle domande poste.

Come funziona il nuovo agente di intelligenza artificiale?

Non si può negare che quando visibile nel video fa un certo effetto, ma come funziona di preciso Project Astra e come riesce a fare quanto mostrato? Stando a quanto dichiarato dal CEO di DeepMind di Google, Demis Hassabis, l’assistente è “progettato per elaborare le informazioni più velocemente codificando continuamente fotogrammi video, combinando l’input video e vocale in una sequenza temporale di eventi e memorizzando queste informazioni nella cache per un richiamo efficiente”.

Nel video potete inoltre notare come il nuovo interlocutore risponda prontamente alle domande ricevute, senza esitazione, questo è possibile grazie ai progressi effettuati dall’azienda nel campo dell’intelligenza artificiale che non sono solo in grado di diminuire i tempi di risposta, ma restituiscono anche un qualcosa di più colloquiale.

Per essere veramente utile, un agente deve comprendere e rispondere al mondo complesso e dinamico proprio come fanno le persone, nonché accogliere e ricordare ciò che vede e sente per comprendere il contesto e agire. Deve anche essere proattivo, insegnabile e personale, in modo che gli utenti possano parlarci in modo naturale e senza ritardi o rallentamenti.

Project Astra è dunque un “agente di intelligenza artificiale universale” il cui scopo è essere utile nella vita di tutti i giorni, quando potremo provarlo? Difficile dirlo, Google non fornisce informazioni precise al riguardo, ma si limita a dire come entro la fine dell’anno vedremo come queste funzionalità verranno implementate nei prodotti Google, come l’ app Gemini e l’esperienza web.