Google continua a spingere sull’acceleratore dell’intelligenza artificiale per sviluppatori e aziende e nelle ultime ore ha annunciato una novità piuttosto importante per il proprio ecosistema Gemini. La società di Mountain View ha infatti reso disponibile la funzionalità di computer use (utilizzo del computer) come strumento integrato all’interno di Gemini 3.5 Flash, superando così l’approccio adottato con la precedente generazione.

Si tratta di un cambiamento significativo perché questa capacità non è più proposta come un modello separato, come avveniva con Gemini 2.5, ma viene incorporata direttamente nel modello principale; in questo modo gli sviluppatori possono sfruttare un’unica soluzione per realizzare agenti IA capaci non soltanto di comprendere richieste e utilizzare strumenti esterni, ma anche di interagire concretamente con ambienti desktop, browser e applicazioni mobili.

Segui TuttoAndroid su Google Discover

Gemini 3.5 Flash può vedere, ragionare e agire sul computer

Secondo quanto spiegato da Google Deepmind, Gemini 3.5 Flash offre attualmente le migliori prestazioni dell’azienda nelle attività di utilizzo del computer da parte degli agenti IA.

Il modello era già in grado di utilizzare strumenti integrati come Ricerca e Mappe e di effettuare chiamate di funzione per interagire con servizi esterni, con l’introduzione del supporto nativo al computer use gli sviluppatori possono ora creare agenti personalizzati capaci di osservare ciò che accade sullo schermo, interpretare il contesto e svolgere azioni all’interno di ambienti digitali differenti.

In termini pratici, questo significa poter sviluppare sistemi in grado di navigare tra pagine web, utilizzare software desktop o applicazioni mobile e completare attività articolate che richiedono più passaggi consecutivi. Google evidenzia come questa evoluzione sia particolarmente utile per scenari professionali e aziendali, tra cui il testing continuo del software, l’automazione di processi complessi e le attività basate sulla gestione della conoscenza.

L’accesso alla funzionalità è già disponibile tramite Gemini API e attraverso la piattaforma Gemini Enterprise Agent, consentendo alle aziende di iniziare fin da subito a sperimentare e implementare soluzioni basate su questa tecnologia.

Come accade sempre più spesso quando si parla di agenti IA autonomi, una parte importante dell’annuncio riguarda gli aspetti legati alla sicurezza. Google spiega di aver adottato specifiche tecniche di addestramento avversariale per mitigare i rischi legati al cosiddetto prompt injection, ovvero quei tentativi di manipolare il comportamento dell’agente attraverso istruzioni malevole presenti nell’ambiente in cui interagisce.

Oltre a questo, l’azienda ha introdotto due ulteriori sistemi di protezione opzionali destinati alla realtà enterprise. Il primo consente di richiedere una conferma esplicita dell’utente prima di eseguire azioni considerate sensibili o irreversibili, mentre il secondo è in grado di interrompere automaticamente un’attività qualora venga rilevato un possibile tentativo di iniezione indiretta di prompt.

Google invita comunque gli sviluppatori ad adottare un approccio multilivello alla sicurezza, combinando queste protezioni con ambienti sandbox, verifiche umane e controlli di accesso rigorosi, soprattutto nei contesti produttivi.

Gli sviluppatori interessati possono già testare le nuove capacità di Gemini 3.5 Flash attraverso gli strumenti messi a disposizione da Google, l’azienda ha inoltre reso disponibile un ambiente dimostrativo ospitato da Browserbase, oltre alla documentazione tecnica e alle implementazioni di riferimento necessarie per iniziare a costruire nuovi agenti IA.

L’integrazione dell’utilizzo del computer direttamente nel modello principale rappresenta un ulteriore tassello della strategia di Google nel settore degli agenti autonomi, un ambito che negli ultimi mesi sta attirando sempre più attenzione da parte dell’intera industria. Con Gemini 3.5 Flash l’obbiettivo appare chiaro, offrire agli sviluppatori una piattaforma unica capace di comprendere il contesto, utilizzare strumenti e interagire direttamente con i sistemi digitali, riducendo la necessità di componenti separati e semplificando la realizzazione di soluzioni sempre più avanzate.