El llamado aprendizaje por refuerzo planifica acciones para obtener las mejores recompensas a largo plazo, algo que puede ser perjudicial en el ámbito de la inteligencia artificial.
¿Cómo puede una inteligencia artificial (IA) decidir qué hacer? Un enfoque habitual en la investigación de la IA es el llamado «aprendizaje por refuerzo». El aprendizaje por refuerzo da al software una «recompensa» definida de alguna manera y le permite averiguar cómo maximizar la recompensa. Este enfoque ha producido algunos resultados excelentes, como la creación de software que derrota a los humanos en juegos como el ajedrez , o la creación de nuevos diseños para reactores de fusión nuclear.
El despliegue de un agente de aprendizaje por refuerzo suficientemente avanzado sería probablemente incompatible con la supervivencia de la humanidad.
El problema del aprendizaje por refuerzo
Lo que ahora llamamos el problema del aprendizaje por refuerzo fue considerado por primera vez en 1933 por el patólogo William Thompson. Se preguntaba: si tengo dos tratamientos no probados y una población de pacientes, ¿cómo debo asignar los tratamientos en sucesión para curar al mayor número de pacientes?
En términos más generales, el problema del aprendizaje por refuerzo consiste en planificar las acciones para acumular las mejores recompensas a largo plazo. El problema es que, al principio, no sabes cómo afectan tus acciones a las recompensas, pero con el tiempo puedes observar la dependencia. Para Thompson, una acción era la selección de un tratamiento, y una recompensa correspondía a la curación de un paciente.
El problema resultó ser difícil. El estadístico Peter Whittle señaló que, durante la segunda guerra mundial, con la llegada de los ordenadores, los informáticos empezaron a intentar escribir algoritmos para resolver el problema del aprendizaje por refuerzo en entornos generales. La esperanza es que, si el «agente de aprendizaje por refuerzo» artificial recibe una recompensa sólo cuando hace lo que queremos, las acciones que aprende y que maximizan la recompensa lograrán lo que queremos.
A pesar de algunos éxitos, el problema general sigue siendo muy difícil. Pídele a un profesional del aprendizaje por refuerzo que entrene a un robot para que cuide un jardín botánico o que convenza a un humano de que está equivocado, y puede que se ría.
Sin embargo, a medida que los sistemas de aprendizaje por refuerzo se vuelven más potentes, es probable que empiecen a actuar en contra de los intereses humanos. Y no porque operadores de aprendizaje por refuerzo malvados o tontos les den las recompensas equivocadas en los momentos equivocados.