Il team di Google ha sviluppato una nuova soluzione che permette di abbinare voci e volti e ha depositato l’apposita richiesta di brevetto presso la World Intellectual Property Organization.

Stando a quanto si apprende, il brevetto di Google non migliora soltanto le funzionalità di riconoscimento facciale comunemente presenti nei dispositivi mobile e nelle app ma include anche la capacità di riconoscere e abbinare più volti e voci in un video.

Tale soluzione si concentra sulla determinazione di quando qualcuno sta parlando e quindi abbina la voce al volto, potenzialmente dando alla macchina la capacità di ascoltare e comprendere le singole voci in una festa o in un ambiente rumoroso.

In sostanza, l’obiettivo è individuare qualcuno che parla, quindi isolare la sua voce confermando eventuali corrispondenze audio con il movimento della bocca. Una volta fatto ciò, la voce viene profilata positivamente e archiviata insieme al viso. Nelle situazioni in cui sono presenti molte persone o nei video con più altoparlanti, la procedura viene ripetuta per ogni persona che parla e, una volta formati i profili per tutti, il sistema può dire chi sta parlando e quando, oltre a capire cosa sta dicendo.

Ovviamente questo nuovo metodo si basa sull’AI e sul machine learning e potrebbe garantire un nuovo step evolutivo anche nel settore della registrazione dei video con i dispositivi mobile.