Un sistema de inteligencia artificial aprende conceptos compartidos en vídeo, audio y texto

Un modelo de aprendizaje automático puede identificar la acción en un clip de vídeo y etiquetarla, sin ayuda de los humanos.

Los humanos observan el mundo mediante una combinación de diferentes modalidades, como la visión, el oído y nuestra comprensión del lenguaje. Las máquinas, en cambio, interpretan el mundo a través de datos que los algoritmos pueden procesar.

Así, cuando una máquina «ve» una foto, debe codificarla en datos que pueda utilizar para realizar una tarea como la clasificación de imágenes. Este proceso se complica cuando las entradas vienen en múltiples formatos, como vídeos, clips de audio e imágenes.

«El principal reto es cómo puede una máquina alinear esas diferentes modalidades. Como humanos, esto es fácil para nosotros. Vemos un coche y oímos el sonido de un coche pasando, y sabemos que son la misma cosa. Pero para el aprendizaje de las máquinas no es tan sencillo», dice Alexander Liu, estudiante de posgrado del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) y primer autor de un artículo que aborda este problema.

Liu y sus colaboradores desarrollaron una técnica de inteligencia artificial que aprende a representar los datos de forma que capte los conceptos que comparten las modalidades visual y auditiva. Por ejemplo, su método puede aprender que la acción de un bebé llorando en un vídeo está relacionada con la palabra hablada «llorando» en un clip de audio.

A partir de este conocimiento, su modelo de aprendizaje automático puede identificar dónde tiene lugar una determinada acción en un vídeo y etiquetarla.

Su rendimiento es mejor que el de otros métodos de aprendizaje automático en las tareas de recuperación multimodal, que consisten en encontrar un dato, como un vídeo, que coincida con la consulta de un usuario en otra forma, como el lenguaje hablado. Su modelo también facilita que los usuarios vean por qué la máquina cree que el vídeo recuperado coincide con su consulta.

Esta técnica podría utilizarse algún día para ayudar a los robots a aprender conceptos del mundo a través de la percepción, de forma más parecida a como lo hacen los humanos.

Junto a Liu, participan en el artículo el postdoctoral del CSAIL SouYoung Jin; los estudiantes de posgrado Cheng-I Jeff Lai y Andrew Rouditchenko; Aude Oliva, investigadora científica senior del CSAIL y directora del MIT-IBM Watson AI Lab; y el autor principal James Glass, investigador científico senior y director del Grupo de Sistemas de Lenguaje Hablado del CSAIL. La investigación se presentará en la reunión anual de la Association for Computational Linguistics.

Aprendizaje de representaciones

Los investigadores centran su trabajo en el aprendizaje de representaciones, que es una forma de aprendizaje automático que busca transformar los datos de entrada para facilitar la realización de una tarea como la clasificación o la predicción.

El modelo de aprendizaje de representaciones toma los datos en bruto, como los vídeos y sus correspondientes subtítulos, y los codifica extrayendo características, u observaciones sobre los objetos y las acciones en el vídeo. A continuación, mapea esos puntos de datos en una cuadrícula, conocida como espacio de incrustación. El modelo agrupa datos similares como puntos individuales en la cuadrícula. Cada uno de estos puntos de datos, o vectores, está representado por una palabra individual.

TE PUEDE GUSTAR

EVENTOS

RECIBE NUESTRA NEWSLETTER

*Email:

*Nombre:

*Empresa:

Cargo:

Sector:
     

Please don't insert text in the box below!

ESCUCHA NUESTRO PODCAST

SÍGUENOS EN RRSS

MÁS COMENTADOS

Scroll al inicio
Resumen de privacidad

Las cookies y otras tecnologías similares son una parte esencial de cómo funciona nuestra web. El objetivo principal de las cookies es que tu experiencia de navegación sea más cómoda y eficiente y poder mejorar nuestros servicios y la propia web. Aquí podrás obtener toda la información sobre las cookies que utilizamos y podrás activar y/o desactivar las mismas de acuerdo con tus preferencias, salvo aquellas Cookies que son estrictamente necesarias para el funcionamiento de la web de BigDataMagazine. Ten en cuenta que el bloqueo de algunas cookies puede afectar tu experiencia en la web y el funcionamiento de la misma. Al pulsar “Guardar cambios”, se guardará la selección de cookies que has realizado. Si no has seleccionado ninguna opción, pulsar este botón equivaldrá a rechazar todas las cookies. Para más información puedes visitar nuestra Políticas de Cookies. Podrás cambiar en cualquier momento tus preferencias de cookies pinchando en el enlace “Preferencias de cookies” situado en la parte inferior de nuestra web.