La IA aprende a jugar a Minecraft viendo vídeos

Entrenan entrenado una red neuronal para jugar a Minecraft mediante el preentrenamiento de vídeo (VPT) en un enorme conjunto de datos de vídeo no etiquetados de juegos humanos de Minecraft, mientras que utiliza sólo una pequeña cantidad de datos de contratistas etiquetados.

Con un poco de ajuste, la empresa de investigación y despliegue de IA Open AI confía en que su modelo pueda aprender a elaborar herramientas de diamante, una tarea que suele llevar a los humanos competentes más de 20 minutos (24.000 acciones). Su modelo utiliza la interfaz humana nativa de pulsaciones de teclas y movimientos de ratón, lo que lo hace bastante general, y representa un paso hacia los agentes generales que utilizan ordenadores.

Un portavoz de la empresa, respaldada por Microsoft, asegura que «Internet contiene una enorme cantidad de información: «Internet contiene una enorme cantidad de vídeos disponibles públicamente de los que podemos aprender. Se puede ver a una persona haciendo una magnífica presentación, a un artista digital dibujando una hermosa puesta de sol y a un jugador de Minecraft construyendo una intrincada casa. Sin embargo, estos vídeos sólo ofrecen un registro de lo que ha sucedido, pero no la forma precisa en que se ha logrado, es decir, no se conoce la secuencia exacta de los movimientos del ratón y las teclas pulsadas.

«Si queremos construir modelos de fundamentos a gran escala en estos dominios, como hemos hecho en el lenguaje con GPT, esta falta de etiquetas de acción plantea un nuevo reto que no está presente en el dominio del lenguaje, donde las «etiquetas de acción» son simplemente las siguientes palabras de una frase».

Gran cantidad de datos en vídeo

Para utilizar la gran cantidad de datos de vídeo sin etiquetar disponibles en Internet, Open AI presenta un método novedoso, aunque sencillo, de aprendizaje por imitación semisupervisado: Video PreTraining (VPT). El equipo comienza reuniendo un pequeño conjunto de datos de contratistas en el que registra no sólo sus vídeos, sino también las acciones que realizaron, que en su caso son pulsaciones de teclas y movimientos del ratón. Con estos datos, la empresa puede entrenar un modelo de dinámica inversa (IDM), que predice la acción que se realiza en cada paso del vídeo. Y lo que es más importante, el IDM puede utilizar información pasada y futura para adivinar la acción en cada paso.

El portavoz añadió: «Esta tarea es mucho más sencilla y, por lo tanto, requiere muchos menos datos que la tarea de clonación conductual de predecir acciones teniendo en cuenta únicamente los fotogramas de vídeo anteriores, lo que requiere inferir lo que la persona quiere hacer y cómo lograrlo. A continuación, podemos utilizar el IDM entrenado para etiquetar un conjunto de datos mucho mayor de vídeos en línea y aprender a actuar mediante la clonación de comportamientos».

Según Open AI, VPT abre el camino para que los agentes aprendan a actuar viendo la gran cantidad de vídeos que hay en Internet.  «En comparación con el modelado generativo de vídeos o los métodos contrastivos, que sólo producirían prejuicios representativos, VPT ofrece la emocionante posibilidad de aprender directamente prejuicios conductuales a gran escala en más dominios que el lenguaje. Aunque sólo experimentamos en Minecraft, el juego es muy abierto y la interfaz humana nativa (ratón y teclado) es muy genérica, por lo que creemos que nuestros resultados son un buen augurio para otros dominios similares, por ejemplo, el uso del ordenador», admiten desde el centro de investigación.

TE PUEDE GUSTAR

EVENTOS

RECIBE NUESTRA NEWSLETTER

*Email:

*Nombre:

*Empresa:

Cargo:

Sector:
     

Please don't insert text in the box below!

ESCUCHA NUESTRO PODCAST

SÍGUENOS EN RRSS

MÁS COMENTADOS

Scroll al inicio