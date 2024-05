Non si può di certo dire che Google si stia contenendo per quanto riguarda le novità legate all’intelligenza artificiale durante questo Google I/O 2024. A tal proposito, in queste ore la casa di Mountain View ci parla di Veo, modello avanzato per la generazione di video, di Imagen 3 per la generazione di immagini, ma anche di Music AI Sandbox e dell’IA generativa nella Ricerca Google. Procediamo con ordine e andiamo a scoprire tutto: ne vale la pena.

Veo, Imagen 3, Music AI Sandbox: nuovi modelli e strumenti per i creator

Google ha lavorato a stretto contatto con la community creativa per esplorare modi in cui l’intelligenza artificiale generativa può supportare al meglio il processo creativo e per assicurarsi che gli strumenti messi a disposizione possano risultare utili in tutte le fasi di tale processo. Durante questo I/O 2024, Google ha presentato Veo, il modello di generazione di video più avanzato, e Imagen 3, modello per la generazione di immagini.

Veo è in grado di generare filmati di qualità a risoluzione 1080p che possono superare il minuto di durata, con stili visivi e cinematografici diversi. Grazie alla comprensione avanzata del linguaggio naturale e della semantica visiva, è capace di creare video che non solo rappresentino in modo preciso la visione creativa dell’utente, ma che colgano il tono dei prompt e che interpretino i dettagli in modo accurato.

Veo può comprendere termini come “timelapse” o “riprese aeree di paesaggi” e creare video di persone, animali e oggetti che si muovono in modo realistico. Ecco qualche esempio:

Google ha anche invitato filmmaker e creator a sperimentare il modello, e le collaborazioni saranno utili per migliorare e implementare nuove tecnologie. Nel video qui sotto possiamo vedere un’anteprima del lavoro svolto con l’artista Donald Glover e il suo studio creativo Gilga.

Secondo quanto riferito da Big G, Veo è basato su anni di lavoro con i modelli di generazione di video, tra cui Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet e Lumiere, e offre una combinazione di architettura, leggi di scala e altre tecniche innovative per migliorare latenza e risoluzione. Con questo modello sono state migliorate le tecniche di apprendimento, il rendering del suono, le immagini, la simulazione della fisica e tanto altro.

Veo è disponibile in anteprima privata con VideoFX, ma alcune delle sue capacità saranno rese disponibili su YouTube Shorts e non solo.

Non solo video, perché con Imagen 3 sono stati fatti progressi anche nella generazione di immagini. Il modello text-to-image genera un livello di qualità ancora migliore ed è capace di creare immagini più realistiche e naturali, con meno artefatti visivi rispetto alle versioni precedenti. Questo anche grazie alla migliore comprensione del linguaggio naturale e dell’intenzione alla base del prompt. Inoltre, si tratta del modello migliore mai realizzato da Google per quanto concerne il rendering del testo, che costituisce da sempre una sfida per questo genere di modelli.

Imagen 3 è disponibile per alcuni creatori selezionati come anteprima privata all’interno di ImageFX. È comunque possibile iscriversi alla lista di attesa, dato che sarà presto disponibile su Vertex AI.

Google sta collaborando con alcuni musicisti, autori e produttori in partnership con YouTube nell’esplorazione del ruolo dell’IA nella creazione di arte e musica. Tutto ciò fornisce alla casa di Mountain View informazioni per lo sviluppo di tecnologia di generazione musicale, tra cui Lyria.

Big G sta progettando e realizzando una suite di strumenti per la musica AI Sandbox, pensata per offrire nuove possibilità creative e per creare da zero nuove sezioni strumentali, modificare il suono in nuovi modi e non solo.

Google ci tiene a specificare di essere al lavoro per migliorare e implementare queste tecnologie in modi sicuri e responsabili: sono stati condotti test di sicurezza, applicati filtri, impostate protezioni e non solo: i team stanno aprendo la strada a nuovi strumenti come SynthID, capace di incorporare filigrane digitali impercettibili in immagini, audio, testi e video generati con IA; i filmati generati da Veo su VideoFX le incorporeranno già da oggi.

IA generativa in Ricerca Google, tra riepiloghi, pianificazioni, domande con video e non solo

La Ricerca Google si è reinventata e si è allargata molto negli anni, ma l’IA generativa può costituire probabilmente una delle implementazioni più importanti. Secondo Big G quest’ultima può fare più di quanto si possa immaginare all’interno della Ricerca: tutto grazie al nuovo modello Gemini personalizzato per lo scopo, che riunisce le capacità avanzate di Gemini (come il ragionamento in più fasi, la pianificazione e la multimodalità) con i migliori sistemi di ricerca.

Serve trovare una risposta in fretta? Già sperimentati con Search Labs, i riepiloghi dell’intelligenza artificiale possono dare una panoramica veloce di un argomento e fornire al contempo i link per approfondire. Da oggi questi riepiloghi sono disponibili per tutti negli Stati Uniti e nel Regno Unito, e presto arriveranno in altri Paesi.

Presto sarà poi possibile regolare il riepilogo dell’IA nel formato che meglio corrisponde al livello di esperienza dell’utente, con opzioni per semplificare il linguaggio o approfondire qualche dettaglio. Questa novità sarà accessibile in Search Labs con domande in inglese, ma solo negli Stati Uniti (per ora).

Sfruttando le capacità di ragionamento in più passaggi di Gemini, i riepiloghi potranno aiutare a scovare risposte a domande sempre più complesse: risulta possibile porre domande più complesse in un’unica volta, senza tralasciare dettagli o precisazioni; qui sotto possiamo vedere un piccolo esempio con la seguente richiesta: “trova le palestre di yoga o pilates migliori di Boston e mostrami i dettagli delle offerte per i nuovi iscritti e la distanza a piedi da Beacon Hill“. Anche in questo caso parliamo di novità presto disponibili in Search Labs per domande in inglese negli Stati Uniti.

La Ricerca Google potrà anche aiutarci a pianificare varie cose, dai semplici pasti alle vacanze. Nell’esempio qui sotto possiamo vedere i risultati di una ricerca per “crea un piano di pasti di 3 giorni per un gruppo, facili da preparare“; per cambiare qualcosa basterà chiedere di fare modifiche, aggiungendo ad esempio un piatto vegetariano; la lista degli ingredienti potrà persino essere esportata rapidamente in una lista della spesa in Documenti o Gmail.

Per il momento la pianificazione di pasti e viaggio è disponibile in Search Labs in inglese e negli Stati Uniti. Entro la fine dell’anno saranno aggiunte ulteriori funzionalità di personalizzazione e altre categorie (come feste, appuntamenti e fitness).

Presto sarà possibile sfruttare l’IA generativa di Ricerca per fare un brainstorming di idee e creare una pagina dei risultati organizzata e più semplice da esplorare; al posto di un elenco di link, sarà possibile visualizzare informazioni raggruppate sotto titoli univoci generati dall’intelligenza artificiale, con varie prospettive e tipi di contenuti. Tanto per cambiare, tutto questo sarà però accessibile a partire dagli Stati Uniti e dalla lingua inglese: si inizierà dalle ricerche riguardanti film, libri, hotel, shopping e non solo.

Infine, grazie ai progressi nella comprensione dei video, Google può portare la ricerca visiva a un livello mai visto, consentendo di fare domande con i video. Nel breve video qui sotto possiamo vedere un esempio per la ricerca della soluzione a un problema con un giradischi: non c’è bisogno di trovare le parole giuste per descrivere la criticità, basta il video per accedere a un riepilogo dell’IA con gli eventuali passaggi e le risorse per risolverlo.

Anche questa funzione arriverà negli Stati Uniti e in lingua inglese in Search Labs, ma col tempo si allargherà ad altri Paesi.