La inteligencia artificial consigue una precisión casi total al procesar datos, según un estudio.
La comprensión del lenguaje natural ha sido durante mucho tiempo uno de los principales objetivos de la investigación en IA. Al principio, los investigadores intentaron programar manualmente todo lo que una máquina necesitaría para dar sentido a las noticias, la ficción o cualquier otra cosa que los humanos pudieran escribir. Este enfoque, como demostró Watson, fue inútil: es imposible escribir todos los hechos, reglas y suposiciones no escritas que se necesitan para comprender un texto.
Más recientemente, se ha establecido un nuevo paradigma: En lugar de incorporar conocimientos explícitos, dejamos que las máquinas aprendan a entender el lenguaje por sí mismas, simplemente ingiriendo grandes cantidades de texto escrito y aprendiendo a predecir palabras. El resultado es lo que los investigadores llaman un modelo lingüístico. Cuando se basan en grandes redes neuronales, como la GPT-3 de OpenAI, estos modelos pueden generar una prosa increíblemente humana (¡y poesía!) y aparentemente realizar sofisticados razonamientos lingüísticos.
Tratamiento lingüístico
Pero, ¿ha trascendido el GPT-3, entrenado con textos de miles de páginas web, libros y enciclopedias, el barniz de Watson? ¿Entiende realmente el lenguaje que genera y sobre el que aparentemente razona? Este es un tema de gran desacuerdo en la comunidad de investigadores de IA. Estas discusiones solían ser competencia de los filósofos, pero en la última década la IA ha salido de su burbuja académica para entrar en el mundo real, y su falta de comprensión de ese mundo puede tener consecuencias reales y a veces devastadoras. En un estudio, se descubrió que Watson de IBM proponía «múltiples ejemplos de recomendaciones de tratamiento inseguras e incorrectas». Otro estudio demostró que el sistema de traducción automática de Google cometía errores significativos cuando se utilizaba para traducir instrucciones médicas para pacientes que no hablaban inglés.
¿Cómo podemos determinar en la práctica si una máquina puede entender? En 1950, el pionero de la informática Alan Turing trató de responder a esta pregunta con su famoso «juego de imitación», ahora llamado test de Turing. Una máquina y un humano, ambos ocultos a la vista, competirían para convencer a un juez humano de su humanidad utilizando únicamente la conversación. Si el juez no podía distinguir cuál era el humano, entonces, afirmaba Turing, deberíamos considerar que la máquina pensaba y, en efecto, entendía.
Por desgracia, Turing subestimó la propensión de los humanos a dejarse engañar por las máquinas. Incluso los chatbots más sencillos, como Eliza, la psicoterapeuta falsa de Joseph Weizenbaum de los años 60, han engañado a la gente haciéndoles creer que estaban conversando con un ser comprensivo, incluso cuando sabían que su interlocutor era una máquina.
En un artículo de 2012, los informáticos Hector Levesque, Ernest Davis y Leora Morgenstern propusieron una prueba más objetiva, a la que llamaron el desafío del esquema de Winograd. Desde entonces, esta prueba se ha adoptado en la comunidad lingüística de la IA como una forma, y quizá la mejor, de evaluar la comprensión de las máquinas, aunque, como veremos, no es perfecta. Un esquema Winograd, llamado así por el investigador del lenguaje Terry Winograd, consiste en un par de frases, que difieren exactamente en una palabra, cada una de ellas seguida de una pregunta.
Sin embargo, la capacidad de los programas de IA para resolver los esquemas de Winograd aumentó rápidamente debido a la aparición de grandes modelos lingüísticos de redes neuronales. Un documento de 2020 de OpenAI informó de que GPT-3 acertó en casi el 90% de las frases de un conjunto de referencia de esquemas de Winograd. Otros modelos lingüísticos han obtenido resultados aún mejores tras un entrenamiento específico en estas tareas. En el momento de escribir este artículo, los modelos lingüísticos de redes neuronales han logrado una precisión de alrededor del 97% en un conjunto concreto de esquemas de Winograd que forman parte de una competición de comprensión lingüística de la IA conocida como SuperGLUE. Esta precisión es prácticamente igual a la del rendimiento humano.