Come abbiamo visto, il keynote principale del Google I/O 2025 si è concentrato quasi esclusivamente sulle funzionalità di Gemini e sull’intelligenza artificiale, anche se c’è stato spazio per parlare di Wear OS e per la beta di Android 16 QPR1. Durante l’evento, Google ha anche annunciato nuovi modelli di media generativi, per importanti passi avanti nella creazione di contenuti: si tratta di modelli pensati per creare immagini, video e musica, consentendo agli artisti di dare vita alla loro visione. Vediamo le novità tra Flow, Veo, Imagen e Lyria.
Segui Google Italia su Telegram, ricevi news e offerte per primo
Google presenta nuovi modelli e strumenti di media generativi tra Flow, Veo, Imagen e Lyria
Veo 3 e Imagen 4 sono gli ultimi modelli di creazione di video e immagini, e vanno ben oltre la semplice realizzazione di contenuti grazie alle loro nuove funzionalità. La casa di Mountain View ha anche ampliato l’accesso a Lyria 2, fornendo ai musicisti ancora più strumenti per la creazione di musica, e ha mostrato Flow, il nuovo strumento di produzione video basato sull’intelligenza artificiale. Google ha collaborato con industrie creative (registi, musicisti, artisti e creator) per plasmare questi modelli in modo responsabile e per offrire ai creator nuovi strumenti con cui esprimere le potenzialità dell’IA nella loro arte.
Veo 3 migliora la qualità di Veo 2, e per la prima volta è capace di creare video con audio, come rumori del traffico, uccellini che cantano o persone che parlano. Basta raccontare una breve storia nel prompt e il modello può creare una clip seguendo le istruzioni. Veo 3 è disponibile per gli abbonati Ultra negli Stati Uniti nell’app Gemini e in Flow. È disponibile anche per gli utenti aziendali su Vertex AI.
Mentre migliora Veo 3, Big G aggiunge nuove funzionalità anche al modello Veo 2, sempre attraverso la collaborazione con creator e registi. Tra le novità messe a disposizione in queste ore troviamo la funzione di creazione video a partire da riferimenti (permette di fornire a Veo immagini di personaggi, scene, oggetti e perfino stili per un controllo creativo e una coerenza migliori), i controlli della fotocamera (aiutano a definire movimenti della fotocamera precisi, come rotazioni, carrellate e zoom), l’outpainting (consente di espandere l’inquadratura, passando dal formato orizzontale a quello verticale e adattando facilmente il video a qualsiasi dimensione dello schermo) e l’aggiunta e la rimozione di oggetti (permette di aggiungere o cancellare gli oggetti dai video).
I controlli per la fotocamera e i video basati su riferimenti sono ora disponibili in Flow, e nelle prossime settimane saranno introdotti nell’API di Vertex AI e in altri prodotti nei prossimi mesi. Flow è uno strumento per la produzione di video AI che permette di combinare i più avanzati modelli di Google DeepMind (ossia Veo, Imagen e Gemini): permette l’uso del linguaggio naturale per descrivere le riprese e di gestire i vari elementi chiave della storia (cast, luoghi, oggetti e stili) in un unico luogo.
Con Flow è possibile controllare i movimenti, le angolazioni e le prospettive della telecamera, modificare e ampliare le riprese esistenti, gestire e organizzare le risorse e non solo. Con Flow TV, Google stimola la creatività con una vetrina in continua espansione di clip, canali e contenuti generati con Veo.
Flow è l’evoluzione di VideoFX, un esperimento di Google Labs lanciato lo scorso anno. A partire da oggi, Flow è disponibile per gli abbonati ai piani Google AI Pro e Google AI Ultra negli Stati Uniti, e presto sarà disponibile anche in altri Paesi. Google AI Pro offre le funzionalità chiave di Flow e 100 generazioni al mese, mentre Google AI Ultra offre limiti di utilizzo più elevati e l’accesso anticipato a Veo 3 con generazione audio nativa, integrando suoni ambientali e dialoghi dei personaggi direttamente nella creazione video.
Con Imagen 4, Google combina velocità e precisione: l’ultimo modello offre nitidezza anche nei minimi dettagli (come tessuti intrecciati, gocce d’acqua e pelo di animali) e offre risultati degni di nota sia negli stili fotorealistici che in quelli astratti; può creare immagini in una vasta gamma di proporzioni e con una risoluzione fino a 2K, ideale per la stampa o le presentazioni. Big G ha anche migliorato ortografia e tipografia, così da rendere più semplice la creazione di biglietti di auguri, poster e persino fumetti.
Imagen 4 è disponibile nell’app Gemini, in Whisk, Vertex AI, Presentazioni, Vids, Documenti e altri prodotti Workspace. Sarà presto accessibile una variante rapida, che risulterà fino a 10 volte più veloce di Imagen 3.
Lo scorso aprile, Google ha esteso l’accesso a Music AI Sandbox, basato su Lyria 2, con la possibilità per musicisti, produttori e cantautori di avere accesso a una serie di strumenti sperimentali che possono aiutare con le nuove possibilità creative e con l’esplorazione di idee musicali uniche. I feedback dell’industria musicale consentono di garantire che gli strumenti supportino la creatività, incoraggiando al contempo i creativi a sfruttare le potenzialità dell’intelligenza artificiale.
Lyria 2 è ora disponibile per i creator tramite YouTube Shorts e per le aziende in Vertex AI. Il modello interattivo di creazione musicale con supporto alla modalità DJ di MusicFX, ossia Lyria RealTime, è disponibile tramite un’API e in AI Studio: consente di creare, controllare e interpretare la musica generativa in tempo reale.
Come abbiamo visto, con SynthID Google applica una filigrana a immagini, video, file audio e testi, aiutando a identificarli come contenuti generati dall’AI e a ridurre le possibilità di disinformazione e attribuzione errata. Al Google I/O è stato anche lanciato SynthID Detector, un portale di verifica che consente di identificare i contenuti generati dall’intelligenza artificiale: basta caricare un contenuto e il sistema indicherà se tutto il file o una parte di esso include SynthID.