Los investigadores del MIT desarrollan una forma de comprobar si los métodos populares para entender los modelos de aprendizaje automático funcionan correctamente.
Imaginemos que un equipo de médicos utiliza una red neuronal para detectar el cáncer en las imágenes de las mamografías. Incluso si este modelo de aprendizaje automático parece funcionar bien, podría estar centrándose en características de la imagen que se correlacionan accidentalmente con los tumores, como una marca de agua o una marca de tiempo, en lugar de los signos reales de los tumores.
Para poner a prueba estos modelos, los investigadores utilizan «métodos de atribución de características», técnicas que supuestamente les indican qué partes de la imagen son las más importantes para la predicción de la red neuronal. ¿Pero qué ocurre si el método de atribución pasa por alto características que son importantes para el modelo? Como los investigadores no saben qué características son importantes, no tienen forma de saber si su método de evaluación no es eficaz.
Para ayudar a resolver este problema, los investigadores del MIT han ideado un proceso para modificar los datos originales, de modo que estén seguros de qué características son realmente importantes para el modelo. A continuación, utilizan este conjunto de datos modificados para evaluar si los métodos de atribución de características pueden identificar correctamente esas características importantes.
Descubrieron que incluso los métodos más populares suelen pasar por alto las características importantes de una imagen, y algunos métodos apenas consiguen rendir tanto como una línea de base aleatoria. Esto podría tener importantes implicaciones, especialmente si las redes neuronales se aplican en situaciones de alto riesgo, como los diagnósticos médicos. Si la red no funciona correctamente, y los intentos de detectar esas anomalías tampoco lo hacen, los expertos humanos pueden no saber que están siendo engañados por el modelo defectuoso, explica el autor principal, Yilun Zhou, estudiante de postgrado de ingeniería eléctrica y ciencias de la computación en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL).
«Todos estos métodos se utilizan mucho, especialmente en algunos escenarios de alto riesgo, como la detección de cáncer a partir de radiografías o tomografías. Pero estos métodos de atribución de características podrían ser erróneos en primer lugar. Pueden resaltar algo que no se corresponde con la verdadera característica que el modelo está utilizando para hacer una predicción, lo que descubrimos que es a menudo el caso. Si se quieren utilizar estos métodos de atribución de características para justificar que un modelo funciona correctamente, es mejor asegurarse de que el propio método de atribución de características funciona correctamente en primer lugar», afirma.
Zhou escribió el artículo con su compañera Serena Booth, estudiante de posgrado de EECS, el investigador de Microsoft Research Marco Tulio Ribeiro y la autora principal Julie Shah, que es profesora de aeronáutica y astronáutica del MIT y directora del Grupo de Robótica Interactiva del CSAIL.
Centrarse en las características
En la clasificación de imágenes, cada píxel de una imagen es una característica que la red neuronal puede utilizar para hacer predicciones, por lo que hay literalmente millones de características posibles en las que puede centrarse. Si los investigadores quieren diseñar un algoritmo para ayudar a los aspirantes a fotógrafos a mejorar, por ejemplo, podrían entrenar un modelo para distinguir las fotos tomadas por fotógrafos profesionales de las tomadas por turistas ocasionales. Este modelo podría usarse para evaluar en qué medida las fotos de aficionados se parecen a las profesionales, e incluso proporcionar información específica para mejorar. Los investigadores querrían que este modelo se centrara en identificar los elementos artísticos de las fotos profesionales durante el entrenamiento, como el espacio de color, la composición y el posprocesamiento. Pero sucede que una foto profesional probablemente contenga una marca de agua con el nombre del fotógrafo, mientras que pocas fotos turísticas la tienen, por lo que el modelo podría tomar el atajo de encontrar la marca de agua.
«Obviamente, no queremos decir a los aspirantes a fotógrafos que una marca de agua es todo lo que necesitan para tener éxito en su carrera, así que queremos asegurarnos de que nuestro modelo se centra en las características artísticas en lugar de la presencia de la marca de agua. Es tentador utilizar métodos de atribución de rasgos para analizar nuestro modelo, pero a fin de cuentas, no hay garantía de que funcionen correctamente, ya que el modelo podría utilizar rasgos artísticos, la marca de agua o cualquier otro rasgo», afirma Zhou.