¿Serán válidos los resultados de la IA si usa datos de Internet?

Un estudio de la Universidad Politécnica de Madrid (UPM) advierte que entrenar inteligencia artificial con datos generados por versiones anteriores vía internet «puede llevar a que un modelo más avanzado produzca resultados absurdos».

El estudio reflexiona sobre el éxito espectacular de la inteligencia artificial generativa, capaz de generar contenidos originales a partir de datos existentes. Advierte que si esta tendencia continúa, el contenido producido de esta manera podría volverse predominante en internet en los próximos años.

Los autores señalan una problemática: estas herramientas se entrenan en muchos casos con grandes conjuntos de datos extraídos de la web, lo que conlleva la posibilidad de errores en los datos de las versiones anteriores.

Impacto de la inteligencia artificial al usar Internet

El estudio explora el impacto de esta retroalimentación en modelos básicos de inteligencia artificial para generar imágenes. Concluyen que a medida que las nuevas versiones trabajan con datos generados por sus predecesoras, la calidad y diversidad de las imágenes obtenidas disminuyen drásticamente.

Observan que un modelo de difusión simple, entrenado con una categoría específica de imágenes como fotografías de pájaros y flores, produce resultados inutilizables tras varias generaciones.

Proponen que una solución aparentemente simple sería descartar los datos previamente generados por la inteligencia artificial. No obstante, señalan que existen métodos para hacerlo, aunque la constante aparición de nuevos modelos los vuelve obsoletos rápidamente.

En consecuencia, sugieren que la interacción entre los modelos de inteligencia artificial generativa y la internet puede tener efectos no deseados y abogan por investigar sus posibles implicaciones en la sociedad.

¿De dónde recopila los datos la IA?

La extracción de datos para entrenar modelos de IA suele implicar la recopilación y procesamiento de información disponible en la red, que puede incluir una amplia gama de fuentes accesibles en internet, como sitios web, redes sociales, bases de datos públicas, repositorios de datos, artículos científicos, entre otros.

Los datos extraídos pueden variar en naturaleza y propósito, desde texto escrito hasta imágenes, audio, video y otros tipos de información. Estos datos se utilizan para enseñar a los modelos de IA a comprender patrones, generar contenido y tomar decisiones basadas en la información que han procesado durante el entrenamiento.

En resumen, la inteligencia artificial utiliza datos recopilados de diversas fuentes disponibles en internet para entrenar y mejorar sus capacidades de generación y comprensión.

TE PUEDE GUSTAR

EVENTOS

RECIBE NUESTRA NEWSLETTER

*Email:

*Nombre:

*Empresa:

Cargo:

Sector:
     

Please don't insert text in the box below!

ESCUCHA NUESTRO PODCAST

SÍGUENOS EN RRSS

MÁS COMENTADOS

Scroll al inicio
Resumen de privacidad

Las cookies y otras tecnologías similares son una parte esencial de cómo funciona nuestra web. El objetivo principal de las cookies es que tu experiencia de navegación sea más cómoda y eficiente y poder mejorar nuestros servicios y la propia web. Aquí podrás obtener toda la información sobre las cookies que utilizamos y podrás activar y/o desactivar las mismas de acuerdo con tus preferencias, salvo aquellas Cookies que son estrictamente necesarias para el funcionamiento de la web de BigDataMagazine. Ten en cuenta que el bloqueo de algunas cookies puede afectar tu experiencia en la web y el funcionamiento de la misma. Al pulsar “Guardar cambios”, se guardará la selección de cookies que has realizado. Si no has seleccionado ninguna opción, pulsar este botón equivaldrá a rechazar todas las cookies. Para más información puedes visitar nuestra Políticas de Cookies. Podrás cambiar en cualquier momento tus preferencias de cookies pinchando en el enlace “Preferencias de cookies” situado en la parte inferior de nuestra web.