Startups como Covariant, Kindred de Ocado y Bright Machines están utilizando el aprendizaje automático para cambiar la forma en que se controlan las máquinas en las fábricas y los almacenes.
A través de la tecnología logran que las máquinas puedan resolver retos extraordinariamente difíciles como conseguir que los robots detecten y recojan objetos de diversos tamaños y formas de los contenedores, entre otros. Están atacando mercados enormes: El año pasado, el mercado de control y automatización industrial tuvo un valor de 152.000 millones de dólares, mientras que la automatización logística se valoró en más de 50.000 millones de dólares.
La fabricación y la cadena de suministro
Dos industrias en la cúspide de las transformaciones de la IA son la fabricación y la cadena de suministro. La forma en que fabricamos y enviamos cosas depende en gran medida de grupos de máquinas que trabajan juntas, y la eficiencia y resistencia de esas máquinas son la base de nuestra economía y sociedad. Sin ellas, no podemos comprar los productos básicos que necesitamos para vivir y trabajar.
Como tecnólogo, necesitas muchas cosas para que el aprendizaje por refuerzo profundo funcione. Lo primero que hay que pensar es cómo conseguir que tu agente de aprendizaje por refuerzo profundo practique las habilidades que quieres que adquiera. Sólo hay dos maneras: con datos reales o mediante simulaciones. Cada enfoque tiene su propio reto: Los datos deben ser recogidos y limpiados, mientras que las simulaciones deben ser construidas y validadas.
Algunos ejemplos ilustrarán lo que esto significa. En 2016, GoogleX anunció sus «granjas de brazos» robóticos –espacios llenos de brazos robóticos que estaban aprendiendo a agarrar objetos y a enseñar a otros a hacer lo mismo-, que era una de las primeras formas en que un algoritmo de aprendizaje por refuerzo podía practicar sus movimientos en un entorno real y medir el éxito de sus acciones. Ese bucle de retroalimentación es necesario para que un algoritmo orientado a objetivos aprenda: Debe tomar decisiones secuenciales y ver a dónde conducen.
En muchas situaciones, no es factible construir el entorno físico en el que un algoritmo de aprendizaje por refuerzo puede aprender. Supongamos que se quiere probar diferentes estrategias para dirigir una flota de miles de camiones que transportan mercancías desde muchas fábricas a muchos puntos de venta. Sería muy caro probar todas las estrategias posibles, y esas pruebas no sólo costarían dinero, sino que las ejecuciones fallidas darían lugar a muchos clientes insatisfechos.
Para muchos sistemas grandes, la única forma posible de encontrar la mejor ruta de acción es con la simulación. En esas situaciones, hay que crear un modelo digital del sistema físico que se quiere entender para generar los datos que necesita el aprendizaje por refuerzo. Estos modelos se denominan, alternativamente, gemelos digitales, simulaciones y entornos de aprendizaje por refuerzo. Todos ellos significan esencialmente lo mismo en las aplicaciones de fabricación y de la cadena de suministro.