Gemini Live si fa più umano: l’audio nativo e la guida visiva arrivano su più dispositivi

Dopo l’esordio sulla serie Pixel 10, una caratteristica di Gemini Live si prepara a raggiungere un pubblico decisamente più ampio, nelle ultime ore infatti Google ha avviato una distribuzione estesa della funzione di uscita audio nativa, pensata per rendere le conversazioni con l’assistente basato sull’intelligenza artificiale più naturali, reattive ed espressive. Una novità che segna un ulteriore passo in avanti nel percorso di integrazione tra linguaggio umano e modelli multimodali, e che si affianca alla nuova guida visiva interattiva già disponibile su Android.

Offerta

Google Pixel 10 Pro XL, 512GB

Offerta + sconto automatico di 100€ al check-out (in fase di pagamento)

979€ invece di 1429€

-31%

Amazon

L’audio nativo e la guida visiva di Gemini sono disponibili per un maggior numero di utenti

Come promesso al lancio dei Pixel 10, Gemini Live sta finalmente ricevendo su larga scala l’audio nativo tramite l’API Flash Live del modello Gemini 2.5; questo aggiornamento consente al sistema di comprendere e riprodurre elementi chiave del linguaggio umano, come intonazione, ritmo e tono, adattando la propria voce in base al contesto emotivo della conversazione.

In altre parole, se l’utente parla con tono stressato o affronta un argomento delicato, Gemini può rispondere con una voce più calma e rassicurante, creando un’interazione più empatica e coerente con lo stato d’animo dell’interlocutore.

Google aveva anticipato che questo aggiornamento avrebbe migliorato drasticamente il modo in cui Gemini Live utilizza gli elementi chiave del linguaggio umano, e oggi quella promessa inizia a concretizzarsi.

Non solo più naturale, ma anche più personalizzabile: Gemini Live ora permette di scegliere accenti diversi, regolare la velocità della voce e modificare la cadenza delle risposte. Queste impostazioni rimangono valide per tutta la durata della conversazione e possono essere facilmente ripristinate accedendo alla trascrizione della chat, toccando il pulsante Live in alto.

Nel caso in cui si inizi una nuova sessione, i controlli tornano automaticamente ai valori predefiniti, garantendo un equilibrio tra personalizzazione e praticità d’uso. Per il momento, la funzione è in distribuzione per tutti gli utenti con abbonamento Google AI Pro.

Oltre all’audio, Google sta ampliando la disponibilità della guida visiva contestuale, introdotta anch’essa con i Pixel 10; si tratta di un sistema che permette a Gemini di evidenziare oggetti nel mondo reale quando l’utente utilizza comandi come mostrami o dov’è.

L’interfaccia si manifesta con una cornice arrotondata e un effetto di messa a fuoco animato, che attenua lo sfondo e mette in risalto ciò che l’assistente sta riconoscendo. È una funzione utile soprattutto in scenari quotidiani, dalla ricerca di un oggetto in casa all’indicazione visiva di un prodotto o un luogo e, a differenza dell’audio nativo, è disponibile anche per gli account gratuiti.

Infine, l’ultimo aggiornamento porta anche una piccola novità grafica, il menù dell’Account Google in formato full screen, ora disponibile nell’app Gemini; in modo simile a quanto già avviene nell’app Google classica, l’intera schermata è dedicata alle informazioni dell’account e alle impostazioni, accessibili semplicemente scorrendo verso il basso.

L’implementazione dell’audio nativo e delle risposte espressive segna una tappa importante per Gemini Live, l’obbiettivo non è solo comprendere le parole, ma anche capire come vengono dette; una direzione che avvicina l’assistente virtuale di Google a una forma di interazione più umana, dove tono e ritmo contano tanto quanto il contenuto.

Potrebbero interessarti anche: