¿Es peligroso que la IA pueda controlar su propio feedback?

El llamado aprendizaje por refuerzo planifica acciones para obtener las mejores recompensas a largo plazo, algo que puede ser perjudicial en el ámbito de la inteligencia artificial.

¿Cómo puede una inteligencia artificial (IA) decidir qué hacer? Un enfoque habitual en la investigación de la IA es el llamado «aprendizaje por refuerzo». El aprendizaje por refuerzo da al software una «recompensa» definida de alguna manera y le permite averiguar cómo maximizar la recompensa. Este enfoque ha producido algunos resultados excelentes, como la creación de software que derrota a los humanos en juegos como el ajedrez , o la creación de nuevos diseños para reactores de fusión nuclear.

El despliegue de un agente de aprendizaje por refuerzo suficientemente avanzado sería probablemente incompatible con la supervivencia de la humanidad. 

El problema del aprendizaje por refuerzo

Lo que ahora llamamos el problema del aprendizaje por refuerzo fue considerado por primera vez en 1933 por el patólogo William Thompson. Se preguntaba: si tengo dos tratamientos no probados y una población de pacientes, ¿cómo debo asignar los tratamientos en sucesión para curar al mayor número de pacientes?

En términos más generales, el problema del aprendizaje por refuerzo consiste en planificar las acciones para acumular las mejores recompensas a largo plazo. El problema es que, al principio, no sabes cómo afectan tus acciones a las recompensas, pero con el tiempo puedes observar la dependencia. Para Thompson, una acción era la selección de un tratamiento, y una recompensa correspondía a la curación de un paciente.

El problema resultó ser difícil. El estadístico Peter Whittle señaló que, durante la segunda guerra mundial, con la llegada de los ordenadores, los informáticos empezaron a intentar escribir algoritmos para resolver el problema del aprendizaje por refuerzo en entornos generales. La esperanza es que, si el «agente de aprendizaje por refuerzo» artificial recibe una recompensa sólo cuando hace lo que queremos, las acciones que aprende y que maximizan la recompensa lograrán lo que queremos.

A pesar de algunos éxitos, el problema general sigue siendo muy difícil. Pídele a un profesional del aprendizaje por refuerzo que entrene a un robot para que cuide un jardín botánico o que convenza a un humano de que está equivocado, y puede que se ría.

Sin embargo, a medida que los sistemas de aprendizaje por refuerzo se vuelven más potentes, es probable que empiecen a actuar en contra de los intereses humanos. Y no porque operadores de aprendizaje por refuerzo malvados o tontos les den las recompensas equivocadas en los momentos equivocados.

TE PUEDE GUSTAR

EVENTOS

RECIBE NUESTRA NEWSLETTER

*Email:

*Nombre:

*Empresa:

Cargo:

Sector:
     

Please don't insert text in the box below!

ESCUCHA NUESTRO PODCAST

SÍGUENOS EN RRSS

MÁS COMENTADOS

Scroll al inicio
Resumen de privacidad

Las cookies y otras tecnologías similares son una parte esencial de cómo funciona nuestra web. El objetivo principal de las cookies es que tu experiencia de navegación sea más cómoda y eficiente y poder mejorar nuestros servicios y la propia web. Aquí podrás obtener toda la información sobre las cookies que utilizamos y podrás activar y/o desactivar las mismas de acuerdo con tus preferencias, salvo aquellas Cookies que son estrictamente necesarias para el funcionamiento de la web de BigDataMagazine. Ten en cuenta que el bloqueo de algunas cookies puede afectar tu experiencia en la web y el funcionamiento de la misma. Al pulsar “Guardar cambios”, se guardará la selección de cookies que has realizado. Si no has seleccionado ninguna opción, pulsar este botón equivaldrá a rechazar todas las cookies. Para más información puedes visitar nuestra Políticas de Cookies. Podrás cambiar en cualquier momento tus preferencias de cookies pinchando en el enlace “Preferencias de cookies” situado en la parte inferior de nuestra web.