Los neurocientíficos del MIT han desarrollado un modelo informático que puede responder a esa pregunta tan bien como el cerebro humano.
El cerebro humano está afinado no sólo para reconocer determinados sonidos, sino también para determinar de qué dirección proceden. Comparando las diferencias entre los sonidos que llegan al oído derecho y al izquierdo, el cerebro puede estimar la ubicación de un perro que ladra, un camión de bomberos que grita o un coche que se acerca.
Los neurocientíficos del MIT han desarrollado ahora un modelo informático que también puede realizar esa compleja tarea. El modelo, que consiste en varias redes neuronales convolucionales, no sólo realiza la tarea tan bien como los humanos, sino que también se esfuerza de la misma manera que los humanos.
«Ahora tenemos un modelo que puede localizar los sonidos en el mundo real», dice Josh McDermott, profesor asociado de ciencias cognitivas y del cerebro y miembro del Instituto McGovern de Investigación Cerebral del MIT. «Y cuando tratamos el modelo como un participante humano en un experimento y simulamos este gran conjunto de experimentos en los que la gente había probado a los humanos en el pasado, lo que encontramos una y otra vez es que el modelo recapitula los resultados que se ven en los humanos».
Los resultados del nuevo estudio también sugieren que la capacidad de los humanos para percibir la ubicación está adaptada a los retos específicos de nuestro entorno, dice McDermott, que también es miembro del Centro de Cerebros, Mentes y Máquinas del MIT. McDermott es el autor principal del artículo, que aparece hoy en Nature Human Behavior. El autor principal del artículo es el estudiante de posgrado del MIT Andrew Francl.
Modelización de la localización
Cuando oímos un sonido como el del silbato de un tren, las ondas sonoras llegan a nuestros oídos derecho e izquierdo en tiempos e intensidades ligeramente diferentes, dependiendo de la dirección de la que provenga el sonido. Algunas partes del cerebro medio están especializadas en comparar estas ligeras diferencias para ayudar a estimar de qué dirección procede el sonido, una tarea que también se conoce como localización. Esta tarea se hace mucho más difícil en condiciones reales, cuando el entorno produce ecos y se oyen muchos sonidos a la vez.
Los científicos llevan mucho tiempo intentando construir modelos informáticos que puedan realizar el mismo tipo de cálculos que el cerebro utiliza para localizar los sonidos. Estos modelos a veces funcionan bien en entornos idealizados sin ruido de fondo, pero nunca en entornos reales, con sus ruidos y ecos.
Para desarrollar un modelo de localización más sofisticado, el equipo del MIT recurrió a las redes neuronales convolucionales. Este tipo de modelo informático se ha utilizado ampliamente para modelar el sistema visual humano y, más recientemente, McDermott y otros científicos han empezado a aplicarlo también a la audición.
Las redes neuronales convolucionales pueden diseñarse con muchas arquitecturas diferentes, así que para ayudarles a encontrar las que mejor funcionaran para la localización, el equipo del MIT utilizó un superordenador que les permitió entrenar y probar unos 1.500 modelos diferentes. Esa búsqueda identificó 10 que parecían los más adecuados para la localización, que los investigadores siguieron entrenando y utilizando para todos sus estudios posteriores.
Para entrenar los modelos, los investigadores crearon un mundo virtual en el que podían controlar el tamaño de la habitación y las propiedades de reflexión de las paredes de la misma. Todos los sonidos introducidos en los modelos procedían de alguna de estas salas virtuales. El conjunto de más de 400 sonidos de entrenamiento incluía voces humanas, sonidos de animales, sonidos de máquinas como motores de coches y sonidos naturales como truenos.
Los investigadores también se aseguraron de que el modelo partiera de la misma información que proporcionan los oídos humanos. El oído externo, o pabellón auricular, tiene muchos pliegues que reflejan el sonido, alterando las frecuencias que entran en el oído, y estas reflexiones varían en función de la procedencia del sonido. Los investigadores simularon este efecto haciendo pasar cada sonido por una función matemática especializada antes de introducirlo en el modelo informático.