Actualidad, AI, Inteligencia Artificial

La IA favorece a los hombres blancos menores de 40 años

Investigadores estudian los modelos lingüísticos utilizados por la IA y descubren que favorece a algunos grupos demográficos respecto a otros.

«Inserte la palabra que falta: Cerré la puerta de mi ____». Es un ejercicio que muchos recuerdan de su época escolar. Mientras que algunos grupos sociales pueden rellenar el espacio con la palabra «casa de vacaciones», otros pueden ser más propensos a insertar «dormitorio» o «garaje». En gran medida, nuestra elección de palabras depende de nuestra edad, del lugar del país del que procedemos y de nuestro entorno social y cultural.

Sin embargo, los modelos lingüísticos que ponemos en práctica en nuestra vida diaria al utilizar los motores de búsqueda, la traducción automática, al interactuar con los chatbots y al dar órdenes a Siri, hablan el idioma de algunos grupos mejor que el de otros. Así lo ha demostrado un estudio del Departamento de Informática de la Universidad de Copenhague, que ha estudiado por primera vez si los modelos lingüísticos favorecen las preferencias lingüísticas de algunos grupos demográficos en detrimento de otros, lo que en la jerga se denomina sesgos sociolectales. ¿La respuesta? Sí.

«En todos los modelos lingüísticos, podemos observar un sesgo sistemático. Mientras que los hombres blancos de menos de 40 años y con menor nivel educativo son el grupo con el que mejor se alinean los modelos lingüísticos, la peor alineación es con el lenguaje utilizado por los hombres jóvenes no blancos», afirma Anders Søgaard, profesor del Departamento de Informática de la UCPH y autor principal del estudio.

Predicciones peores para personas de color

El análisis demuestra que hasta una de cada diez predicciones de los modelos son significativamente peores para los hombres jóvenes no blancos en comparación con los hombres jóvenes blancos. Para Søgaard, esto es suficiente para plantear un problema: «Cualquier diferencia es problemática porque las diferencias se cuelan en una amplia gama de tecnologías. Los modelos lingüísticos se utilizan para fines importantes en nuestra vida cotidiana, como la búsqueda de información en línea. Cuando la disponibilidad de la información depende de cómo se formula y de si su lenguaje se alinea con aquel para el que se han entrenado los modelos, significa que la información disponible para otros, puede no estar disponible para usted».

El profesor Søgaard añade que incluso un ligero sesgo en los modelos puede tener consecuencias más graves en contextos en los que la precisión es clave: «Podría ser en el sector de los seguros, donde los modelos lingüísticos se utilizan para agrupar casos y realizar evaluaciones de riesgo de los clientes. También podría ser en contextos legales, como en el trabajo de casos públicos, donde los modelos se utilizan a veces para encontrar casos similares en lugar de precedentes. En estas circunstancias, una pequeña diferencia puede resultar decisiva», afirma.

La mayoría de los datos proceden de las redes sociales

Los modelos lingüísticos se entrenan introduciendo enormes cantidades de texto para enseñar a los modelos la probabilidad de que las palabras aparezcan en contextos específicos. Al igual que en el ejercicio escolar anterior, los modelos deben predecir las palabras que faltan en una secuencia. Los textos proceden de lo que está disponible en Internet, la mayoría de los cuales se han descargado de las redes sociales y de Wikipedia.

«Sin embargo, los datos disponibles en la web no son necesariamente representativos de nosotros como usuarios de tecnología. Wikipedia es un buen ejemplo en el sentido de que su contenido está escrito principalmente por hombres blancos jóvenes. Esto es importante con respecto al tipo de lenguaje que aprenden los modelos«, dice Søgaard.

Los investigadores siguen sin saber por qué las características sociolectales de los jóvenes blancos son las que mejor representan los modelos lingüísticos. Pero tienen una suposición fundamentada: «Está relacionado con el hecho de que los jóvenes blancos son el grupo que más ha contribuido a los datos con los que se entrenan los modelos. La mayor parte de los datos proceden de las redes sociales. Además, sabemos por otros estudios que es este grupo demográfico el que más contribuye a escribir en este tipo de foros públicos y abiertos», explica Anders Søgaard.

El problema parece crecer junto con los avances digitales, explica el profesor Søgaard: «A medida que los ordenadores se vuelven más eficientes, con más datos disponibles, los modelos lingüísticos tienden a crecer y se entrenan con más y más datos. En el caso del tipo de lenguaje más utilizado actualmente, parece -sin que sepamos por qué- que cuanto más grandes son los modelos, más sesgos tienen. Así que, a menos que se haga algo, la brecha entre ciertos grupos sociales se ampliará».

Afortunadamente, se puede hacer algo para corregir el problema: «Si queremos superar la distorsión, no basta con alimentar las máquinas con más datos. En cambio, una solución obvia es entrenar mejor los modelos. Esto puede hacerse cambiando los algoritmos para que, en lugar de tratar todos los datos como si fueran igual de importantes, sean especialmente cuidadosos con los datos que surgen de una media poblacional más equilibrada», concluye Anders Søgaard.

El artículo de investigación «Sociolectal Analysis of Pretrained Language Models» (Análisis sociolectal de modelos lingüísticos preformados) se incluyó en la Conferencia sobre Métodos Empíricos en el Procesamiento del Lenguaje Natural (EMNLP) 2021.

Samuel Rodríguez

Periodista a cargo de Ecommerce News desde 2012. Inquieto. En el camino, creé otros medios, como @BigDataMagazine y @CybersecurityNews. Organizador de cientos de eventos profesionales. Ahora con un pie en Portugal y otro en México... Muy del @GetafeCF

TE PUEDE GUSTAR

Descubren el primer ransomware nativo del navegador asistido por IA

Aldana Balmaceda
01/07/2026

Check Point Research, la división de Inteligencia de Amenazas de Check Point® Software Technologies Ltd., empresa global en soluciones de ciberseguridad, ha descubierto una

Los 10 mandamientos de la nueva Ley de IA

Aldana Balmaceda
01/07/2026

El próximo 2 de agosto se ha marcado como fecha para la aplicación general de la mayoría de las obligaciones del Reglamento Europeo de

Cómo la IA devuelve tiempo a las empresas

Aldana Balmaceda
29/06/2026

¿Y si la burocracia pudiera hacerte envejecer? Esa es la idea de la que parte «Inteligentize o seu negócio«, la nueva campaña desarrollada por

¿Estamos preparados para una IA con criterio propio?

Aldana Balmaceda
29/06/2026

La inteligencia artificial se ha convertido en una herramienta capaz de automatizar tareas, agilizar procesos y ayudarnos a tomar decisiones. Pero su evolución no se detiene. Tras el

La IA supera el 30% de adopción en la mediana empresa española

Aldana Balmaceda
28/06/2026

Cegid, empresa europea en soluciones de gestión empresarial en la nube para los sectores de Finanzas (Tesorería, Fiscalidad y ERP), Recursos Humanos (Nómina, gestión

La preparación profesional, clave para rentabilizar la IA

Aldana Balmaceda
28/06/2026

Kyndryl, proveedor de servicios tecnológicos empresariales de misión crítica y consultoría tecnológica, ha anunciado la publicación de «People Readiness Report», estudio global realizado entre 1.100

EVENTOS

Más del 60% de las inversiones corporativas se concentran en inteligencia artificial

AI, Eventos

CDO Day: Madrid acogerá el mayor encuentro nacional de líderes del dato

Actualidad, Eventos

La IA inunda la construcción: desde la inversión hasta la planificación pasando por la digitalización de licencias

AI, Eventos

La IA amplifica los sesgos de género para las jóvenes: más frágiles, dependientes y con vocación a la salud

IA en femenino, Inteligencia Artificial

Convertir datos en impacto real

Eventos

Samsung impulsa la IA doméstica con ecosistemas abiertos en CES 2026

Actualidad, Eventos

RECIBE NUESTRA NEWSLETTER

ESCUCHA NUESTRO PODCAST

SÍGUENOS EN RRSS

MÁS COMENTADOS

Cómo la analítica avanzada puede mejorar las operaciones en el sector retail

Actualidad, Business Intelligence, Inteligencia Artificial, Retail

«El Big Data en el entorno de la industria logística va a ser imprescindible y SEUR lo vimos hace años»

Actualidad, Entrevistas

Utilización de Big Data y Machine Learning en la Industria 4.0

Inteligencia Artificial, Internet of Things

El uso de la inteligencia artificial en el diagnóstico precoz del cáncer de piel

Actualidad, Business Intelligence, Cases Studies, Data, Machine Learning, Salud

Detectado el robo de datos a gamers desde la Deep Web

Actualidad

Iluminación IoT gracias a la alianza IoT-Ready

Internet of Things