Investigadores del MIT desarrollan un modelo basado en la IA capaces de entender las relaciones individuales entre objetos y poder así describir escenas.
Cuando los humanos miran una escena, ven los objetos y las relaciones entre ellos. Encima de su escritorio, puede haber un portátil que está sentado a la izquierda de un teléfono, que está delante de un monitor de ordenador.
Muchos modelos de aprendizaje profundo tienen dificultades para ver el mundo de esta manera porque no entienden las relaciones entre los objetos individuales. Sin el conocimiento de estas relaciones, un robot diseñado para ayudar a alguien en una cocina tendría dificultades para seguir una orden como «coge la espátula que está a la izquierda de los fogones y colócala encima de la tabla de cortar.»
En un esfuerzo por resolver este problema, los investigadores del MIT han desarrollado un modelo que entiende las relaciones subyacentes entre los objetos de una escena. Su modelo representa las relaciones individuales de una en una y luego combina estas representaciones para describir la escena global. Esto permite al modelo generar imágenes más precisas a partir de descripciones de texto, incluso cuando la escena incluye varios objetos que están dispuestos en diferentes relaciones entre sí.
Este trabajo podría aplicarse en situaciones en las que los robots industriales deban realizar intrincadas tareas de manipulación de varios pasos, como apilar objetos en un almacén o ensamblar electrodomésticos. Además, se acerca un poco más a la posibilidad de que las máquinas puedan aprender de su entorno e interactuar con él como lo hacen los humanos.
Una relación a la vez
El marco desarrollado por los investigadores puede generar una imagen de una escena a partir de una descripción textual de los objetos y sus relaciones, como «Una mesa de madera a la izquierda de un taburete azul. Un sofá rojo a la derecha de un taburete azul».
Su sistema descompone estas frases en dos partes más pequeñas que describen cada relación individual («una mesa de madera a la izquierda de un taburete azul» y «un sofá rojo a la derecha de un taburete azul»), y luego modela cada parte por separado. A continuación, esas piezas se combinan mediante un proceso de optimización que genera una imagen de la escena.
Los investigadores utilizaron una técnica de aprendizaje automático denominada modelos basados en la energía para representar las relaciones individuales de los objetos en la descripción de una escena. Esta técnica les permite utilizar un modelo basado en la energía para codificar cada descripción relacional y, a continuación, componerlos juntos de forma que se infieran todos los objetos y relaciones.