Unos auriculares impiden interrupciones durante videoconferencias usando deep learning

Investigadores de Washington desarrollan unos auriculares que permiten una mayor concentración mientras se está en una reunión. Para ello han recurrido a la ayuda del deep learning.

Cuando las reuniones pasaron a ser en línea durante el cierre de COVID-19, muchas personas se dieron cuenta de que el parloteo de los compañeros de habitación, los camiones de la basura y otros sonidos fuertes interrumpían las conversaciones importantes.

Esta experiencia inspiró a tres investigadores de la Universidad de Washington, que fueron compañeros de habitación durante la pandemia, a desarrollar unos mejores auriculares. Para mejorar la voz del interlocutor y reducir el ruido de fondo, los «ClearBuds» utilizan un novedoso sistema de micrófono y uno de los primeros sistemas de aprendizaje automático que funcionan en tiempo real y se ejecutan en un smartphone.

Los investigadores presentaron este proyecto  en la Conferencia Internacional ACM sobre Sistemas, Aplicaciones y Servicios Móviles. «Los ClearBuds se diferencian de otros auriculares inalámbricos en dos aspectos fundamentales», afirma la coautora principal, Maruchi Kim, estudiante de doctorado de la Facultad de Informática e Ingeniería Paul G. Allen. «En primer lugar, los ClearBuds utilizan una matriz de micrófonos doble. Los micrófonos de cada auricular crean dos flujos de audio sincronizados que proporcionan información y permiten separar espacialmente los sonidos procedentes de distintas direcciones con mayor resolución. En segundo lugar, la red neuronal ligera mejora la voz del hablante».

El algoritmo suprime sonidos no vocálicos

Aunque la mayoría de los auriculares comerciales también tienen micrófonos en cada uno de ellos, sólo un auricular envía activamente el audio al teléfono a la vez. Con ClearBuds, cada auricular envía un flujo de audio al teléfono. Los investigadores diseñaron protocolos de red Bluetooth que permiten sincronizar estos flujos con una diferencia de 70 microsegundos.

El algoritmo de la red neuronal del equipo se ejecuta en el teléfono para procesar los flujos de audio. Primero suprime los sonidos no vocales. Y luego aísla y mejora cualquier ruido que llegue al mismo tiempo desde ambos auriculares: la voz del orador.

«Como la voz del orador está cerca y aproximadamente equidistante de los dos auriculares, la red neuronal puede entrenarse para centrarse sólo en su voz y eliminar los sonidos de fondo, incluidas otras voces», explica el coautor Ishan Chatterjee, estudiante de doctorado en la Escuela Allen. «Este método es bastante similar a cómo funcionan los propios oídos. Utilizan la diferencia de tiempo entre los sonidos que llegan a sus oídos izquierdo y derecho para determinar de qué dirección procede un sonido».

Deja un comentario

Tu dirección de correo electrónico no será publicada.

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

TE PUEDE GUSTAR

El data scientist de PiperLab, Javier Fernández, nos cuenta en este artículo cuáles son los cambios que ha sufrido la industria del fútbol a

EVENTOS

RECIBE LA NEWSLETTER

*Email:

*Nombre:

*Empresa:

Cargo:

Sector:
     

Please don't insert text in the box below!

ESCUCHA NUESTRO PODCAST

SÍGUENOS EN RRSS

MÁS COMENTADOS

Ir arriba