Il team di Google ha pubblicato un documento con il quale descrive Tacotron 2, ossia un sistema text-to-speech che dovrebbe essere in grado di imitare quasi alla perfezione l’audio di una voce umana che legge un testo.

Si tratta della seconda generazione del sistema studiato da Google, forte dell’utilizzo di due reti neurali profonde: la prima rete traduce il testo in uno spettrogramma (pdf), ossia un modo visivo per rappresentare le frequenze audio nel tempo, che viene inserito in WaveNet (un sistema di AI elaborato da DeepMind di Alphabet), il quale legge il grafico e genera di conseguenza gli elementi audio corrispondenti.

I ricercatori del colosso di Mountain View hanno inoltre dimostrato che Tacotron 2 è in grado di gestire parole e nomi difficili da pronunciare, nonché di alterare il tono in base alla punteggiatura.

Tacotron 2 potrebbe presto essere sfruttato per migliorare in maniera importante le prestazioni di Google Assistant. Staremo a vedere.