Un sistema de inteligencia artificial aprende conceptos compartidos en vídeo, audio y texto

Un modelo de aprendizaje automático puede identificar la acción en un clip de vídeo y etiquetarla, sin ayuda de los humanos.

Los humanos observan el mundo mediante una combinación de diferentes modalidades, como la visión, el oído y nuestra comprensión del lenguaje. Las máquinas, en cambio, interpretan el mundo a través de datos que los algoritmos pueden procesar.

Así, cuando una máquina «ve» una foto, debe codificarla en datos que pueda utilizar para realizar una tarea como la clasificación de imágenes. Este proceso se complica cuando las entradas vienen en múltiples formatos, como vídeos, clips de audio e imágenes.

«El principal reto es cómo puede una máquina alinear esas diferentes modalidades. Como humanos, esto es fácil para nosotros. Vemos un coche y oímos el sonido de un coche pasando, y sabemos que son la misma cosa. Pero para el aprendizaje de las máquinas no es tan sencillo», dice Alexander Liu, estudiante de posgrado del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) y primer autor de un artículo que aborda este problema.

Liu y sus colaboradores desarrollaron una técnica de inteligencia artificial que aprende a representar los datos de forma que capte los conceptos que comparten las modalidades visual y auditiva. Por ejemplo, su método puede aprender que la acción de un bebé llorando en un vídeo está relacionada con la palabra hablada «llorando» en un clip de audio.

A partir de este conocimiento, su modelo de aprendizaje automático puede identificar dónde tiene lugar una determinada acción en un vídeo y etiquetarla.

Su rendimiento es mejor que el de otros métodos de aprendizaje automático en las tareas de recuperación multimodal, que consisten en encontrar un dato, como un vídeo, que coincida con la consulta de un usuario en otra forma, como el lenguaje hablado. Su modelo también facilita que los usuarios vean por qué la máquina cree que el vídeo recuperado coincide con su consulta.

Esta técnica podría utilizarse algún día para ayudar a los robots a aprender conceptos del mundo a través de la percepción, de forma más parecida a como lo hacen los humanos.

Junto a Liu, participan en el artículo el postdoctoral del CSAIL SouYoung Jin; los estudiantes de posgrado Cheng-I Jeff Lai y Andrew Rouditchenko; Aude Oliva, investigadora científica senior del CSAIL y directora del MIT-IBM Watson AI Lab; y el autor principal James Glass, investigador científico senior y director del Grupo de Sistemas de Lenguaje Hablado del CSAIL. La investigación se presentará en la reunión anual de la Association for Computational Linguistics.

Aprendizaje de representaciones

Los investigadores centran su trabajo en el aprendizaje de representaciones, que es una forma de aprendizaje automático que busca transformar los datos de entrada para facilitar la realización de una tarea como la clasificación o la predicción.

El modelo de aprendizaje de representaciones toma los datos en bruto, como los vídeos y sus correspondientes subtítulos, y los codifica extrayendo características, u observaciones sobre los objetos y las acciones en el vídeo. A continuación, mapea esos puntos de datos en una cuadrícula, conocida como espacio de incrustación. El modelo agrupa datos similares como puntos individuales en la cuadrícula. Cada uno de estos puntos de datos, o vectores, está representado por una palabra individual.

TE PUEDE GUSTAR

EVENTOS

RECIBE NUESTRA NEWSLETTER

*Email:

*Nombre:

*Empresa:

Cargo:

Sector:
     

Please don't insert text in the box below!

ESCUCHA NUESTRO PODCAST

SÍGUENOS EN RRSS

MÁS COMENTADOS

Scroll al inicio