En esta época que nos está tocando vivir, las videollamadas han aumentado. Todos queremos seguir manteniendo el contacto con nuestros seres queridos y esta herramienta nos acerca un poquito más a ellos.
Google ha desarrollado con Inteligencia Artificial un sistema que imita la voz de los oradores, para que cuando se entrecorte la conversación llene ese vacio. La tecnología se está utilizando en la aplicación de videollamadas Duo de Google.
¿Cómo funcionan las videollamdas?
Cuando estás en una videollamada, tu voz se corta en un montón de piezas diminutas que se comprimen a través de Internet en bloques de datos conocidos como paquetes. Los paquetes a menudo llegan al otro extremo mezclado y el software tiene que reordenarlos, en otras ocasiones los paquetes no llegan. Las fallas y lagunas que se provocan en una conversación suelen suceder en el mejor momento. Según Google, el 99% de las llamadas de Duo tienen que lidiar con paquetes confusos o perdidos. Una décima parte de esas llamadas pierden más del 8% de su audio.
¿Cómo soluciona Google Duo el problema?
Para solucionar el problema, el equipo ha utilizado una red neuronal desarrollada por DeepMind que puede generar un habla realista a partir del texto. Llamada WaveNetEQ, la nueva red neuronal fue entrenada en un gran conjunto de datos de 100 voces humanas grabadas que hablaban 48 idiomas diferentes hasta que pudiera autocompletar secciones cortas del habla basadas en patrones comunes en la forma en que las personas hablan.
Debido a que Duo está cifrado de extremo a extremo, la IA se ejecuta en el dispositivo, no en la nube. Durante una llamada, WaveNetEQ es capaz de aprender las características de la voz de un orador y genera fragmentos de audio que coinciden tanto con el estilo como con el contenido de lo que dice el orador. Cuando se pierde un paquete, la voz generada por IA se inserta en su lugar.