Google presenta Translatotron, un modello di traduzione speech-to-speech

Finora i sistemi di traduzione speech-to-speech, che traducono un messaggio vocale in un altro messaggio vocale, hanno utilizzato un sistema a tre fasi per completare le operazioni.

In un primo momento il messaggio vocale viene tradotto in testo scritto, quest’ultimo viene tradotto nella lingua destinataria e infine riprodotta grazie a un motore di sintesi TTS (Text to speech). Queste tre operazioni hanno però il difetto di perdersi alcune parti del discorso, portando avanti ed eventualmente amplificando gli errori di traduzione.

Google AI, la divisione dedicata all’intelligenza artificiale, ha annunciato ieri l’arrivo di Translatotron, un nuovo modello di traduzione che salta due passaggi ed effettua direttamente la traduzione vocale. Il nuovo sistema prevede l’utilizzo di un modello sequence-to-sequence che elabora il messaggio vocale sotto forma di spettrogramma, generando un analogo spettrogramma nel linguaggio di destinazione.

Il suono ha un timbro leggermente robotico, ma grazie a un componente opzionale è possibile mantenere alcune caratteristiche del timbro di voce originale, con un risultato decisamente accettabile. Potete ascoltare alcuni esempi della traduzione effettuata con Translatotron nella pagina relativa sul blog di Google.