Se si considera quanto sia difficile per gli esseri umani percepire la voce e seguire un discorso di chi sta parlando in una festa rumorosa o in un posto affollato, è semplice comprendere quanto possa essere complicato fare la stessa cosa per i sistemi automatici.

I ricercatori di Google hanno lavorato per isolare le fonti di audio ed i risultati che hanno mostrato nelle scorse ore sono impressionanti.

Il sistema creato dai ricercatori di Google è basato sull’apprendimento automatico ed è capace di selezionare suoni specifici come il parlato in un video, non solo isolando le parole pronunciate da fonti audio dal sottofondo come il rumore ambientale ma anche separando completamente il discorso di due persone che parlano simultaneamente.

Il metodo utilizzato dai ricercatori per addestrare la rete è abbastanza ingegnoso: hanno creato “finti cocktail party”, composti da fonti “pulite” di audio e video, sovrapposte manualmente con un rumore di sottofondo altrettanto pulito e i dati sono stati quindi inviati alla rete, addestrando il sistema di AI con i movimenti facciali del video insieme agli spettrogrammi della traccia audio.

Resta da valutare quali possano essere le implicazioni sulla privacy di tale tecnologia: migliorando il sistema, infatti, questo potrebbe essere in grado persino di scegliere una singola voce da una folla per strada.