La IA aprende a jugar a Minecraft viendo vídeos

Entrenan entrenado una red neuronal para jugar a Minecraft mediante el preentrenamiento de vídeo (VPT) en un enorme conjunto de datos de vídeo no etiquetados de juegos humanos de Minecraft, mientras que utiliza sólo una pequeña cantidad de datos de contratistas etiquetados.

Con un poco de ajuste, la empresa de investigación y despliegue de IA Open AI confía en que su modelo pueda aprender a elaborar herramientas de diamante, una tarea que suele llevar a los humanos competentes más de 20 minutos (24.000 acciones). Su modelo utiliza la interfaz humana nativa de pulsaciones de teclas y movimientos de ratón, lo que lo hace bastante general, y representa un paso hacia los agentes generales que utilizan ordenadores.

Un portavoz de la empresa, respaldada por Microsoft, asegura que «Internet contiene una enorme cantidad de información: «Internet contiene una enorme cantidad de vídeos disponibles públicamente de los que podemos aprender. Se puede ver a una persona haciendo una magnífica presentación, a un artista digital dibujando una hermosa puesta de sol y a un jugador de Minecraft construyendo una intrincada casa. Sin embargo, estos vídeos sólo ofrecen un registro de lo que ha sucedido, pero no la forma precisa en que se ha logrado, es decir, no se conoce la secuencia exacta de los movimientos del ratón y las teclas pulsadas.

«Si queremos construir modelos de fundamentos a gran escala en estos dominios, como hemos hecho en el lenguaje con GPT, esta falta de etiquetas de acción plantea un nuevo reto que no está presente en el dominio del lenguaje, donde las «etiquetas de acción» son simplemente las siguientes palabras de una frase».

Gran cantidad de datos en vídeo

Para utilizar la gran cantidad de datos de vídeo sin etiquetar disponibles en Internet, Open AI presenta un método novedoso, aunque sencillo, de aprendizaje por imitación semisupervisado: Video PreTraining (VPT). El equipo comienza reuniendo un pequeño conjunto de datos de contratistas en el que registra no sólo sus vídeos, sino también las acciones que realizaron, que en su caso son pulsaciones de teclas y movimientos del ratón. Con estos datos, la empresa puede entrenar un modelo de dinámica inversa (IDM), que predice la acción que se realiza en cada paso del vídeo. Y lo que es más importante, el IDM puede utilizar información pasada y futura para adivinar la acción en cada paso.

El portavoz añadió: «Esta tarea es mucho más sencilla y, por lo tanto, requiere muchos menos datos que la tarea de clonación conductual de predecir acciones teniendo en cuenta únicamente los fotogramas de vídeo anteriores, lo que requiere inferir lo que la persona quiere hacer y cómo lograrlo. A continuación, podemos utilizar el IDM entrenado para etiquetar un conjunto de datos mucho mayor de vídeos en línea y aprender a actuar mediante la clonación de comportamientos».

Según Open AI, VPT abre el camino para que los agentes aprendan a actuar viendo la gran cantidad de vídeos que hay en Internet.  «En comparación con el modelado generativo de vídeos o los métodos contrastivos, que sólo producirían prejuicios representativos, VPT ofrece la emocionante posibilidad de aprender directamente prejuicios conductuales a gran escala en más dominios que el lenguaje. Aunque sólo experimentamos en Minecraft, el juego es muy abierto y la interfaz humana nativa (ratón y teclado) es muy genérica, por lo que creemos que nuestros resultados son un buen augurio para otros dominios similares, por ejemplo, el uso del ordenador», admiten desde el centro de investigación.

TE PUEDE GUSTAR

EVENTOS

RECIBE NUESTRA NEWSLETTER

*Email:

*Nombre:

*Empresa:

Cargo:

Sector:
     

Please don't insert text in the box below!

ESCUCHA NUESTRO PODCAST

SÍGUENOS EN RRSS

MÁS COMENTADOS

Scroll al inicio
Resumen de privacidad

Las cookies y otras tecnologías similares son una parte esencial de cómo funciona nuestra web. El objetivo principal de las cookies es que tu experiencia de navegación sea más cómoda y eficiente y poder mejorar nuestros servicios y la propia web. Aquí podrás obtener toda la información sobre las cookies que utilizamos y podrás activar y/o desactivar las mismas de acuerdo con tus preferencias, salvo aquellas Cookies que son estrictamente necesarias para el funcionamiento de la web de BigDataMagazine. Ten en cuenta que el bloqueo de algunas cookies puede afectar tu experiencia en la web y el funcionamiento de la misma. Al pulsar “Guardar cambios”, se guardará la selección de cookies que has realizado. Si no has seleccionado ninguna opción, pulsar este botón equivaldrá a rechazar todas las cookies. Para más información puedes visitar nuestra Políticas de Cookies. Podrás cambiar en cualquier momento tus preferencias de cookies pinchando en el enlace “Preferencias de cookies” situado en la parte inferior de nuestra web.