Google rende le sintesi vocali sempre più convincenti grazie a WaveNet

Per Google le tecnologie di sintesi vocale sono un punto focale. E lo dimostra il fatto che Big G lancerà a breve Cloud Text-to-Speech.

Dietro tale servizio, disponibile in futuro, c’è WaveNet di DeepMind, quella tecnologia che da qualche mese viene utilizzata anche per Google Assistant e che risulta particolarmente efficace per rendere la voce che udiamo meno macchinosa e quindi più naturale.

Per inciso, forse qualcuno di voi si ricorderà delle spiccate doti canore dell’assistente di Google di cui parlavamo oltre due anni fa. Ecco WaveNet ci aveva messo già del suo.

Al di là di questo, c’è da dire che tale tecnologia di DeepMind, compagnia di intelligenza artificiale acquisita da Big G da diversi anni, sta per essere utilizzata per servizi cloud, segno che Google desidera essere ancor più competitiva in materia con rivali come Microsoft o Amazon.

D’altronde WaveNet rimane ad oggi una delle tecnologie più all’avanguardia in materia. A differenza di Siri e della cosiddetta “concatenative synthesis” che quest’ultimo e molti altri utilizzano, la tecnologia di DeepMind sfrutta il machine learning. Come? In sostanza WaveNet è capace di analizzare le forme delle onde sonore comparandole con un enorme database di parole da cui poter attingere per ricrearne i suoni da zero alla velocità di 24.000 campioni al secondo.

Grazie al costante sviluppo di tale tecnologia, Google stessa conferma che WaveNet parla ora ben 12 lingue, sebbene non sia emerso al momento quali siano. Le voci disponibili sono ben 32 e, come intuibile, sono personalizzabili su vari aspetti come la velocità e l’intonazione.

Ecco due esempi, il primo è un comune sintetizzatore vocale, il secondo utilizza WaveNet:

Vai a: Google ha sviluppato un sistema per riprodurre la voce umana