Un grupo de investigadores han estudiado como afecta la teoría del ofrecimiento de psicología a la Inteligencia Artifical y han obtenido resultados positivos.
En psicológica la teroía del ofrecimiento explica que «posibilidades materialmente ofrece un objeto para reconocer como usarlo», una teoría que pertenece a James J. Gibson del 1977. Esta teoría se ha visto que afecta tanto a las personas como a los animales.
El grupo de investigadores de DeepMind tomó este concepto para desarrollar un nuevo enfoque para el aprendizaje de refuerzo. En el aprendizaje de refuerzo que se ha estado utilizando hasta el momento, un agente aprende a través de la prueba y el error, ya que considera que cualquier acción es posible. Cuando se aplica el aprendizaje de refuerzo a un robot, y se le dice por ejemplo que se mueva del punto A al punto B, este probará todos los posibles caminos. Lo mejor sería que el robot aprendiera primero las asequiciones de su entorno, y así tardaría menos tiempo en llegar al camino correcto.
¿Cómo se desarrollo el experimento?
Para desarrollar el experimento los investigadores configuraron un escenario virtual simple. Para ello, colocaron un agente virtual en un entorno 2D con una pared en el centro e hicieron que el agente explorara su rango de movimiento hasta que hubiera aprendido lo que el entorno le permitiría hacer: sus asequiciones. Una vez que el robot sabía cómo podía interactuar con cada objeto del entorno, los investigadores le dieron al agente un conjunto de objetivos simples para lograr a través del aprendizaje de refuerzo, como moverse unos metros a la derecha o a la izquierda. Encontraron que, en esta ocasión el robot evitaba cualquier movimiento que hiciera que se bloqueara por la pared a mitad de su movimiento, estableciéndola para lograr su objetivo de manera más eficiente.
Aunque, las pruebas están todavía en su primera etapa, ya que han sido muy sencillas y los objetivos eran fáciles. Parece que podría asentarse una buena teoría para escalar la idea a acciones mucho más complejas.
En el futuro, este nuevo enfoque podría permitir a un robot evaluar rápidamente si puede, por ejemplo, verter líquido en una taza. Después de haber desarrollado una comprensión general de qué objetos ofrecen la posibilidad de sostener líquido y cuáles no, de esta manera se evitaría que vertiera líquido por toda la mesa antes de saber que la taza es el lugar donde puede hacerlo.