Chi ha mai provato a far scrivere a un’intelligenza artificiale il menù di un ristorante su un’immagine, sa bene come va a finire: piatti inventati, parole storpiate, caratteri che sembrano usciti da un sogno surreale. Quella che sembrava una limitazione strutturale e forse insuperabile dei modelli generativi, è oggi ufficialmente storia. OpenAI ha presentato ChatGPT Images 2.0, il nuovo modello di generazione visiva che, secondo la stessa azienda, rappresenta un autentico “step change”, un salto di paradigma, rispetto a tutto ciò che è venuto prima.
Segui TuttoAndroid su Google Discover
Offerte Amazon Prime Day, scopri quando!
Iscrivi ad Amazon Prime per poter approfittare delle offerte Prime Day, i primi 30 giorni sono gratis!
Un problema tecnico vecchio quanto i generatori di immagini
Per capire perché questo annuncio conta davvero, bisogna fare un passo indietro e mettere a fuoco la natura del problema. I modelli di diffusione, quelli su cui si è basata la generazione di immagini AI negli ultimi anni, lavorano ricostruendo immagini a partire dal rumore casuale. Il guaio è che le scritte occupano solo una piccola porzione dei pixel complessivi di un’immagine: il modello tende quindi ad apprendere i pattern visivi dominanti, relegando il testo a un ruolo secondario. Il risultato, come sanno bene designer e content creator, è quasi sempre un disastro tipografico.
Come aveva spiegato Asmelash Teka Hadgu, fondatore di Lesan AI, il sistema finisce per imparare i pattern che coprono la maggioranza dei pixel, e il testo rimane invariabilmente sullo sfondo. Un’alternativa teorica sono i modelli autoregressivi, che ragionano sulle immagini in modo più simile a come un LLM gestisce il testo, formulando previsioni su come debba apparire ogni singola parte dell’immagine. OpenAI, però, non ha voluto rivelare l’architettura esatta alla base di Images 2.0, declinando la domanda durante il briefing con la stampa. Quello che conta è il risultato: il problema, almeno nella sua forma più evidente, è stato risolto.
Segui l'Intelligenza Artificiale su Telegram, ricevi news e offerte per primo
Cosa cambia davvero con Images 2.0
Il salto qualitativo si percepisce subito nei casi d’uso più esigenti. Il modello è ora in grado di renderizzare testo piccolo, iconografie, elementi di interfaccia utente e composizioni visive dense con un livello di fedeltà che le versioni precedenti non avrebbero nemmeno sfiorato. La risoluzione massima supportata arriva ora a 2K, gli aspect ratio spaziano da 3:1 a 1:3, utili per banner, poster, storie social, segnalibri e copertine, e in un unico passaggio è possibile ottenere fino a otto output distinti dallo stesso prompt, mantenendo coerenza stilistica tra tutti i risultati.

Per chi lavora su storyboard, campagne di brand o serie di grafiche per i social, questo risolve un flusso di lavoro che in precedenza richiedeva di generare e assemblare le immagini una alla volta, con risultati quasi sempre disomogenei. OpenAI definisce il nuovo modello un vero “visual thought partner”, un partner creativo capace di sostenere interi progetti visivi, non solo di produrre immagini singole su richiesta.
La novità più importante: la modalità Thinking
Quella che probabilmente segna la differenza più sostanziale rispetto a qualsiasi altro generatore visivo attualmente disponibile è l’integrazione delle capacità di ragionamento. È la prima volta che OpenAI porta la modalità Thinking, già nota agli utenti del modello testuale, all’interno di un sistema di generazione visiva.
Attivando questa funzione, il modello può cercare informazioni sul web in tempo reale, ragionare sulla struttura della scena da rappresentare, produrre più varianti di un output e verificare i propri risultati prima di consegnarli all’utente. In pratica, prima di disegnare, il modello “pensa”. Valuta le informazioni disponibili, le interpreta visivamente e produce qualcosa di coerente con il contesto reale, non solo con il testo del prompt. È un cambio di approccio radicale rispetto alla logica “ricevi l’input, genera l’immagine” che ha caratterizzato finora l’intera categoria.
La modalità Instant, quella base, disponibile su tutti i piani incluso il gratuito, offre già miglioramenti significativi rispetto al predecessore. La modalità Thinking, più potente e con output di qualità superiore, è riservata agli abbonati ai piani Plus, Pro, Business ed Enterprise.

Lingue non latine: un mercato che si apre
Uno degli aspetti più sottovalutati dell’annuncio riguarda il supporto alle lingue non latine. OpenAI dichiara “guadagni significativi” nella capacità di comprendere e renderizzare testo in giapponese, coreano, cinese, hindi e bengali, accompagnati da una comprensione più profonda delle specificità visive e culturali di ciascuno di questi sistemi di scrittura.
Per chi si occupa di comunicazione internazionale, design editoriale o sviluppo di app per mercati asiatici, questo apre scenari concreti e prima inaccessibili: poster localizzati, materiali promozionali multilingua, prototipi di interfacce, fumetti con dialoghi in caratteri non latini. Senza dover passare dalla post-produzione manuale per correggere ogni singola parola storpiata dall’AI.
Stile, coerenza e fedeltà visiva
ChatGPT Images 2.0 mostra progressi marcati anche sul fronte della fedeltà stilistica. OpenAI descrive il modello come più convincente nel fotorealismo, nelle fotografie con imperfezioni credibili, nei frame cinematografici, nel manga, nel pixel art e in altri linguaggi visivi identitari. Durante i test pre-lancio, il modello ha generato sequenze manga di più pagine con narrazione visiva coerente e ha riprodotto fedelmente lo stile grafico dei giochi Pokémon per Game Boy Advance, un banco di prova non banale per qualsiasi sistema visivo.
La coerenza tra immagini multiple è uno degli obiettivi dichiarati: stessi personaggi, stessi oggetti, stesso stile visivo attraverso i diversi output generati da un unico prompt. Un’esigenza concreta per agenzie, redazioni digitali e creator che producono contenuti in serie.
Offerte Amazon Prime Day, scopri quando!
Iscrivi ad Amazon Prime per poter approfittare delle offerte Prime Day, i primi 30 giorni sono gratis!
Disponibilità e accesso API
Il modello è disponibile da subito direttamente in ChatGPT, web e app iOS/Android, per tutti gli utenti. Gli sviluppatori possono accedervi tramite API con il nome gpt-image-2, con una struttura di prezzi variabile in base alla qualità e alla risoluzione degli output richiesti. OpenAI lo ha integrato anche nell’app Codex, che la settimana scorsa aveva già ricevuto un aggiornamento con generazione di immagini integrata.
Il knowledge cutoff del modello è aggiornato a dicembre 2025, il che lo rende capace di gestire attività end-to-end che combinano scrittura creativa, analisi e composizione grafica attingendo a un bagaglio di conoscenze relativamente recente.

Il contesto competitivo
Il lancio arriva in un momento in cui il mercato dei generatori di immagini AI si sta facendo più affollato e più maturo. Poche settimane fa Anthropic ha presentato il proprio assistente visivo Claude Design, mentre già a febbraio 2026 Google aveva rilasciato Nano Banana 2 con funzionalità simili di testo integrato nelle immagini. OpenAI si muove quindi in un contesto di concorrenza serrata, dove la capacità di gestire testo leggibile e composizioni precise è diventata il nuovo terreno di confronto tra i principali modelli visivi.
Con ChatGPT Images 2.0, l’azienda alza l’asticella in modo deciso: non si tratta solo di immagini più belle, ma di un sistema che ragiona, ricerca, pianifica e produce con un livello di controllo e coerenza che nessun generatore visivo aveva ancora offerto. Per designer, content creator, redazioni digitali e sviluppatori, il punto di partenza delle prossime settimane è chiaro: provare il modello, capire dove eccelle e dove ancora mostra margini di miglioramento, e integrarlo in modo intelligente nel proprio flusso di lavoro. Perché l’AI visiva, con questo passo, è entrata in una fase concretamente nuova.

