Google continua a raffinare, aggiornamento dopo aggiornamento, l’esperienza utente offerta da Gemini su Android, e secondo quanto emerso dall’analisi della versione 16.30.59.sa.arm64 dell’app Google, l’azienda sarebbe ora al lavoro su una funzionalità particolarmente interessante: la possibilità di allegare file audio (come MP3, WAV e FLAC) nelle chat con l’assistente. Si tratta di un’aggiunta che, se confermata e resa pienamente operativa, potrebbe rappresentare un’ulteriore svolta nel modo in cui gli utenti interagiscono con l’IA generativa sul proprio smartphone.

Offerta

Motorola edge 60, 8/256 GB

50+50+10MP, 6.67'' pOLED 120Hz, Batteria 5200mAh, ricarica 68W, Android 15

237€ invece di 379€
-37%

In futuro potrete fornire file audio all’app Gemini per Android da analizzare

Secondo quanto emerso, il nuovo aggiornamento Beta include una funzione nascosta che consente di allegare un file audio all’interno della chat con Gemini, una volta caricato un file compare un messaggio contestuale Parlane in diretta, che lascia intendere l’intenzione di avviare un’interazione dinamica tra utente e IA sulla base dell’audio fornito.

Allo stato attuale però, la funzione sembra ancora incompleta o non funzionante, Gemini pur mostrando l’interfaccia corretta non elabora i file audio in modo coerente; in alcuni casi li ignora completamente, in altri tenta una risposta generata a caso, finendo per produrre risultati del tutto scollegati dal contenuto reale. Nulla di nuovo per chi conosce i limiti attuali dei modelli linguistici, ma è chiaro che il supporto completo è ancora lontano dal rilascio pubblico.

Anche se l’app Android mostra solo indizi parziali, l’elaborazione di file audio da parte di Gemini è già una realtà sul piano tecnico, l’IA di Google infatti supporta l’input audio via API e può trascrivere ciò che viene detto, descrivere suoni, riassumere interi file audio, individuare e restituire contenuti a partire da timestamp precisi.

È quindi lecito immaginare che questa capacità venga estesa anche all’app mobile, dove oggi è già possibile allegare immagini e ricevere riposte contestuali; il supporto all’audio sarebbe, da questo punto di vista, il passo successivo naturale nel percorso di integrazione multimodale dell’IA nel sistema Android.

Tuttavia, come spesso accade con le funzionalità scoperte tramite smontaggio APK, non ci sono garanzie sul rilascio finale, potrebbe arrivare nei prossimi mesi, essere modificata oppure rimanere un semplice esperimento interno, ma il fatto che Google stia lavorando attivamente in questa direzione è di per sé significativo, soprattutto se consideriamo le mosse parallele di altri player del settore.

La possibilità di inviare un file audio e chiedere a Gemini di trascriverlo, analizzarlo o parlarne in diretta apre scenari d’uso estremamente interessanti, soprattutto in mobilità; dalla gestione dei messaggi vocali lunghi (o di dubbia chiarezza) alla trascrizione di appunti, passando per analisi di interviste o contenuti registrati, un approccio che potrebbe semplificare ulteriormente l’interazione con l’IA, rendendola più naturale e aderente alle esigenze reali degli utenti.

Nonostante la funzione sia ancora in fase embrionale, il supporto ai file audio in Gemini per Android rappresenta un tassello importante nel percorso evolutivo dell’assistente IA di Google; dopo l’integrazione con il caricamento di immagini e le risposte contestuali visive, l’ascolto attivo dell’audio potrebbe trasformare l’app in uno strumento ancora più completo, in grado di rispondere letteralmente a qualsiasi input.