Google DeepMind: los flujos de trabajo con algoritmos RL serán más fáciles de desarrollar

Acme es la nueva librería que permitirá construir algoritmos RL fiables, eficientes y orientados a la investigación.

«Acme: A Research Framework for Distributed  Reinforcement Learning» es el nombre del documento publicado por los investigadores de DeepMind donde se prensenta un marco que tiene como objetivo permitir que se ejecuten implementaciones simples de agentes RL en diferentes escalas de ejecución. Resolviendo así uno de los problemas habituales.

Con Acme los investigadores podrán escalar mientras se asegura de que los agentes de RL ofrezcan los resultados deseados. Para ello los desarrolladores de DeepMind han tenido en cuenta, varios principios de diseño que permitirán a los desarrolladores crear, probar y depurar agentes RL fácilmente en escenarios a pequeña escala antes de escalarlos.

Acme también aprovecha Reverb, un sistema de almacenamiento de datos eficiente que fue especialmente diseñado para flujos de trabajo de aprendizaje automático. También, admite otras representaciones de estrucutra de datos como FIFO y colas de prioridad para simplificar su uso para algoritmos dentro y fuera de la directiva.

¿Qué es el aprendizaje por refuerzo?

El aprendizaje por refuerzo es un área de la inteligencia artificial que se centra en maximizar la recompensa. No se le indican las acciones que debe tomar, sino que se le permite experimentar para que el solo obtenga el mejor resultado. Esto no significa que sea lo mismo que el aprendizaje no supervisado.

El aprendizaje por RL se ha utilizado para mapear entradas de sensores, agarrar objetos y controlar movimientos de robots. Esto ha permitido que los robots puedan moverse libremente en grandes distancias, lo que ha hecho posible que se empiecen a utilizar las robots para traer la compra p repartir paquetes.

Explicación más extensa de que han querido hacer con Acme

El equipo de DeepMind ha explicado que diseñaron Acme para permitir que los agentes que se ejecutan tanto en un solo proceso como en régimen altamente distribuidos al proporcionar herramientas y componentes para construir agentes en varios niveles de abstracción, desde los más bajos (p. ej., redes, pérdidas, políticas) hasta los trabajadores (actores, aprendices, memorias intermedias de reproducción), y finalmente agentes completos. Todo esto permite la medición y evaluación de la capacitación, registro y verificación de puntos.

Han descrito Acme como una interfaz RL clásica que conecta a los actores con su entorno. Los actores pueden hacer observaciones y seleccionar acciones que se retroalimentarán en el entorno en consecuencia y luego se utilizarán para actualizar el estado interno del actor. La división interna de actuar y aprender de los datos también permite a los investigadores reutilizar la porción de actuación en muchos agentes diferentes.

TE PUEDE GUSTAR

EVENTOS

RECIBE NUESTRA NEWSLETTER

*Email:

*Nombre:

*Empresa:

Cargo:

Sector:
     

Please don't insert text in the box below!

ESCUCHA NUESTRO PODCAST

SÍGUENOS EN RRSS

MÁS COMENTADOS

Scroll al inicio