Facebook quiere que la IA encuentre tus llaves y entienda tus conversaciones

El proyecto Ego4D proporciona una colección de vídeos de personas y de datos que permitiría a los ordenadores obtener información útiles para ayudar a los usuarios.

Facebook ha anunciado un proyecto de investigación que pretende ampliar la «frontera de la percepción en primera persona» y, de paso, ayudarte a recordar dónde has dejado las llaves. El proyecto Ego4D proporciona una enorme colección de vídeos en primera persona y datos relacionados, además de un conjunto de retos para que los investigadores enseñen a los ordenadores a entender los datos y a obtener información útil de ellos.

En septiembre, el gigante de las redes sociales lanzó una línea de «gafas inteligentes» llamadas Ray-Ban Stories, que llevan una cámara digital y otras funciones. Al igual que el proyecto Google Glass, que recibió críticas mixtas en 2013, este ha suscitado quejas de invasión de la privacidad.

El proyecto Ego4D pretende desarrollar un software que haga que las gafas inteligentes sean mucho más útiles, pero que en el proceso permita una mayor violación de la privacidad.

¿Qué es Ego4D?

El «Ego» de Ego4D significa egocéntrico (o vídeo en «primera persona»), mientras que «4D» representa las tres dimensiones del espacio más una más: el tiempo. En esencia, Ego4D trata de combinar fotos, vídeos, información geográfica y otros datos para construir un modelo del mundo del usuario.

Hay dos componentes: un gran conjunto de datos de fotos y vídeos en primera persona, y un «conjunto de referencia» que consiste en cinco tareas desafiantes que pueden utilizarse para comparar diferentes modelos o algoritmos de IA entre sí. Estas pruebas de referencia consisten en analizar vídeos en primera persona para recordar acontecimientos pasados, crear entradas de diario, comprender las interacciones con objetos y personas, y prever acontecimientos futuros.

El conjunto de datos incluye más de 3.000 horas de vídeo en primera persona de 855 participantes realizando tareas cotidianas, capturadas con diversos dispositivos, como cámaras GoPro y gafas de realidad aumentada. Los vídeos abarcan actividades en el hogar, en el lugar de trabajo y en cientos de entornos sociales.

¿Qué contiene el conjunto de datos?

Aunque no es el primer conjunto de datos de vídeo de este tipo que se presenta a la comunidad investigadora, es 20 veces mayor que los conjuntos de datos disponibles públicamente. Incluye vídeo, audio, escaneos de malla 3D del entorno, mirada ocular, estéreo y vistas multicámara sincronizadas del mismo evento.

La mayor parte de las imágenes grabadas no tienen guión o son «en la naturaleza». Los datos también son muy diversos, ya que se recogieron en 74 lugares de nueve países, y quienes los captaron tienen diferentes orígenes, edades y géneros.

¿Qué podemos hacer con ellos?

Normalmente, los modelos de visión por ordenador se entrenan y prueban con imágenes y vídeos anotados para una tarea específica. Facebook sostiene que los actuales conjuntos de datos y modelos de IA representan una visión en tercera persona o de «espectador», lo que da lugar a una percepción visual limitada. Entender el vídeo en primera persona ayudará a diseñar robots que se relacionen mejor con su entorno.

Además, Facebook sostiene que la visión egocéntrica puede transformar potencialmente la forma en que utilizamos los dispositivos de realidad virtual y aumentada, como las gafas y los auriculares. Si podemos desarrollar modelos de IA que entiendan el mundo desde un punto de vista en primera persona, al igual que lo hacen los humanos, los dispositivos de RV y RA pueden llegar a ser tan valiosos como nuestros smartphones.

TE PUEDE GUSTAR

EVENTOS

RECIBE NUESTRA NEWSLETTER

*Email:

*Nombre:

*Empresa:

Cargo:

Sector:
     

Please don't insert text in the box below!

ESCUCHA NUESTRO PODCAST

SÍGUENOS EN RRSS

MÁS COMENTADOS

Scroll al inicio