Poche ore fa Google ha annunciato l’arrivo di diversi miglioramenti per la modifica e la generazione delle immagini con l’intelligenza artificiale di Gemini. L’aggiornamento ha incluso passi avanti consistenti per la coerenza dei soggetti inclusi e non solo, e attraverso un nuovo post sul suo blog ufficiale, Google ha fornito alcuni suggerimenti per sfruttare al meglio le novità.
Google fornisce suggerimenti per sfruttare le novità di Gemini
Nella giornata di ieri, Google ha lanciato un rinnovato modello di generazione e modifica delle immagini pensato per l’app Gemini, per AI Studio e per Vertex AI. Come abbiamo visto, l’aggiornamento ha introdotto significativi miglioramenti nella coerenza dei soggetti, un editing più preciso e “colloquiale” e la possibilità di combinare le foto in creazioni completamente nuove.
Gemini può conservare l’aspetto delle persone e degli oggetti attraverso più generazioni e modifiche, può unire elementi, soggetti e stili diversi provenienti da più idee in un’unica immagine, può apportare modifiche a parti specifiche di un’immagine con un linguaggio più semplice, può applicare uno stile, una texture o un design da un soggetto all’altro, e può generare scene complesse e prevedere il passaggio successivo in una sequenza.
Grazie al rinnovato modello è possibile ottenere ottimi risultati anche con semplici input di una o due frasi, ma per spingersi oltre si possono considerare i suggerimenti di Google e l’inclusione di ulteriori prompt. In particolare, è meglio considerare i seguenti punti:
- Soggetto: chi o cosa raffigurare nell’immagine? Meglio essere specifici fin da subito.
- Composizione: come deve essere l’inquadratura? Primo piano, campo ampio, dal basso, ritratto, etc. etc.
- Azione: cosa sta succedendo nella scena?
- Luogo: dove si svolge la scena?
- Stile: qual è lo stile estetico generale? Animazione 3D, film noir, fotorealismo, etc. etc.
- Istruzioni per la modifica: in caso di modifiche, meglio essere diretti e specifici (ad esempio, “rimuovi lo sfondo“, o “cambia il colore della cravatta“)
Cinque tecniche da provare per generare immagini
Google prosegue svelandoci cinque tecniche da provare, ciascuna accompagnata da un esempio.
Gemini può mantenere l’aspetto di una persona o di un personaggio in pose, luci e ambienti diversi, e anche applicare lo stesso personaggio a nuovi stili e superfici:
- prompt 1: crea un’illustrazione bizzarra di un piccolo e splendente folletto dei funghi; il folletto ha un grande cappello a forma di fungo bioluminescente, occhi grandi e curiosi e un corpo fatto di viticci intrecciati;
- prompt 2 (nella stessa conversazione): ora mostra lo stesso folletto che cavalca una simpatica lumaca ricoperta di muschio attraverso un prato soleggiato pieno di fiori selvatici colorati.
Grazie alle funzionalità aggiornate, si possono apportare modifiche rapide e molto precise alle foto:
- prompt 1: una foto di alta qualità di un soggiorno moderno e minimalista con un divano grigio, un tavolino da caffè in legno chiaro e una grande pianta in vaso;
- prompt 2 (modifica): cambia il colore del divano con un blu navy;
- prompt 3 (modifica): ora aggiungi una pila di tre libri al tavolino.
Si può anche provare a fondere due o più idee in un’unica immagine: basta chiedere a Gemini di creare due immagini e combinarne soggetti e ambienti in vari modi:
- prompt 1: genera un’immagine fotorealistica di un astronauta con casco e tuta completa;
- prompt 2: genera l’immagine di un campo da basket invaso dalla vegetazione nella foresta pluviale;
- prompt 3: mostra l’astronauta che fa una schiacciata con una palla da basket in questo campo.
Si può poi cambiare completamente l’atmosfera e l’estetica di un’immagine applicando un nuovo stile, una nuova tavolozza di colori o una nuova texture, mantenendo il soggetto originale intatto:
- prompt 1: un’immagine fotorealistica di una motocicletta d’epoca parcheggiata su una strada cittadina;
- prompt 2: applica a questa immagine lo stile di un disegno architettonico.
Il quinto e ultimo esempio sfrutta le capacità di ragionamento di Gemini. Si può fornire una scena semplice e lasciare che l’IA ne sviluppi i dettagli:
- prompt 1: genera l’immagine di una persona in piedi che tiene in mano una torta a tre piani;
- prompt 2: genera un’immagine che mostra cosa accadrebbe se inciampasse.
Nonostante i passi avanti, ci sono ancora alcune aree che necessitano di miglioramenti. Google avvisa che la stilizzazione del modello può talvolta risultare incoerente o produrre risultati inaspettati; in più, il modello potrebbe fare errori nell’ortografia o avere difficoltà con una tipografia complessa, o potrebbe tuttora non riuscire a mantenere sempre la coerenza nell’aspetto dei soggetti. Infine, il modello potrebbe avere difficoltà a mantenere le proporzioni. Big G fa sapere di essere al lavoro per migliorare anche in questi aspetti.
Avete già provato a utilizzare le rinnovate capacità di Gemini nella generazione e nella modifica delle immagini? Come è andata?