Google continua a lavorare per sviluppare e rendere sempre più completi i modelli di intelligenza artificiale della famiglia Gemini. L’ultima novità annunciata dal colosso di Mountain View è la Agentic Vision che sbarca nel modello Gemini 3 Flash, presentato lo scorso dicembre.

Questa Visione Agentica combina il ragionamento visivo con l’esecuzione di codice per offrire risposte basate su prove visive concrete, con l’obiettivo di rendere un lontano ricordo quelle intelligenze artificiali che “tirano a indovinare” quando gli viene posta una domanda su ciò che vedono. Scopriamo tutti i dettagli.

Segui TuttoAndroid su Google Discover

Offerta

roborock Qrevo Curv 2 Flow

Offerta + clicca su applica coupon di 50 euro + coupon: TTANDROID5

519€ invece di 899€
-42%

Google porta la “Agentic Vision” in Gemini 3 Flash

Come anticipato in apertura, Google ha annunciato l’introduzione della Agentic Vision, una funzione che combina ragionamento visivo ed esecuzione di codice per far sì che le risposte fornite si basino su prove concrete, nel modello Gemini 3 Flash.

Con questa novità, Big G vuole superare una criticità dei modelli di intelligenza artificiale tradizionali e generalisti (come Gemini) che tipicamente elaborano il mondo attraverso un singolo sguardo statico, con il rischio di “perdersi” alcuni dettagli che non saltano subito all’occhio ma sono fondamentali.

Con Agentic Vision, la comprensione delle immagini diventa un processo attivo, un’investigazione dinamica in cui il modello Gemini 3 Flash formula piani per ingrandire, ispezionare e manipolare le immagini passo dopo passo.

Il funzionamento della Agentic Vision

Il ciclo di funzionamento della Agentic Vision è definito come “Think, Act, Observe” (lett. “Pensa, Agisci, Osserva”) ed è stato introdotto appositamente per gestire il processo di comprensione delle immagini:

  1. Think – Il modello analizza la richiesta dell’utente e l’immagine iniziale, formulando un piano d’azione composto da più passaggi.
  2. Act – Il modello genera ed esegue condice Python per manipolare attivamente l’immagine o per analizzarla attraverso calcoli specifici.
  3. Observe – L’immagine trasformata viene aggiunta alla finestra di contesto del modello; ciò permette al modello di ispezionare i nuovi dati con un contesto migliore a disposizione rispetto a prima; solo poi avverrà la generazione della risposta finale.

Ciclo funzionamento Agentic Vision - Gemini 3 Flash

Nuove possibilità applicative

Google ha poi fornito tre esempi concreti del funzionamento della Agentic Vision, puntando a dimostrare che l’integrazione dell’esecuzione di codice apre la strada a possibilità applicative innovative che riducono gli errori e le “allucinazioni” tipiche dei modelli standard.

Esempio 1 – Zoom e ispezione di un’immagine

Gemini 3 Flash è addestrato per decidere in autonomia di zoomare quando rileva dettagli importanti, effettuando ritagli specifici.

Esempio 2 – Annotazioni sulle immagini

Gemini 3 Flash non si limita a descrivere ciò che vede ma può interagirvi, disegnando direttamente sull’immagine per supportare il proprio ragionamento.

Esempio 3 – Analisi di tabelle ad alta densità

Grazie alla Agentic Vision, Gemini 3 Flash è in grado di analizzare tabelle ad alta densità ed eseguire codice Python per visualizzare i risultati, sostituendo le ipotesi probabilistiche con un’esecuzione verificabile che consente di generare grafici professionali e accurati.

Disponibilità e sviluppi futuri

La Agentic Vision nel modello Gemini 3 Flash è disponibile da oggi tramite l’API di Gemini in Google AI Studio e Vertex AI ma sta per arrivare anche nell’app di Gemini (sia mobile che Web): in questo caso vi si potrà accedere selezionando il modello Ragionamento.

Google ha poi parlato degli sviluppi futuri legati a questa novità, precisando che questo è solo l’inizio. L’obiettivo per il futuro è rendere impliciti i comportamenti che oggi richiedono un prompt specifico (come la rotazione delle immagini o la matematica visiva) e di espandere la funzionalità ad altri strumenti (come la Ricerca) o alle versioni più performanti dei modelli di Gemini (come Gemini 3 Pro).