Un estudio de la Universidad Politécnica de Madrid (UPM) advierte que entrenar inteligencia artificial con datos generados por versiones anteriores vía internet «puede llevar a que un modelo más avanzado produzca resultados absurdos».
El estudio reflexiona sobre el éxito espectacular de la inteligencia artificial generativa, capaz de generar contenidos originales a partir de datos existentes. Advierte que si esta tendencia continúa, el contenido producido de esta manera podría volverse predominante en internet en los próximos años.
Los autores señalan una problemática: estas herramientas se entrenan en muchos casos con grandes conjuntos de datos extraídos de la web, lo que conlleva la posibilidad de errores en los datos de las versiones anteriores.
Impacto de la inteligencia artificial al usar Internet
El estudio explora el impacto de esta retroalimentación en modelos básicos de inteligencia artificial para generar imágenes. Concluyen que a medida que las nuevas versiones trabajan con datos generados por sus predecesoras, la calidad y diversidad de las imágenes obtenidas disminuyen drásticamente.
Observan que un modelo de difusión simple, entrenado con una categoría específica de imágenes como fotografías de pájaros y flores, produce resultados inutilizables tras varias generaciones.
Proponen que una solución aparentemente simple sería descartar los datos previamente generados por la inteligencia artificial. No obstante, señalan que existen métodos para hacerlo, aunque la constante aparición de nuevos modelos los vuelve obsoletos rápidamente.
En consecuencia, sugieren que la interacción entre los modelos de inteligencia artificial generativa y la internet puede tener efectos no deseados y abogan por investigar sus posibles implicaciones en la sociedad.
¿De dónde recopila los datos la IA?
La extracción de datos para entrenar modelos de IA suele implicar la recopilación y procesamiento de información disponible en la red, que puede incluir una amplia gama de fuentes accesibles en internet, como sitios web, redes sociales, bases de datos públicas, repositorios de datos, artículos científicos, entre otros.
Los datos extraídos pueden variar en naturaleza y propósito, desde texto escrito hasta imágenes, audio, video y otros tipos de información. Estos datos se utilizan para enseñar a los modelos de IA a comprender patrones, generar contenido y tomar decisiones basadas en la información que han procesado durante el entrenamiento.
En resumen, la inteligencia artificial utiliza datos recopilados de diversas fuentes disponibles en internet para entrenar y mejorar sus capacidades de generación y comprensión.