El desarrollo de la IA es una prioridad para las empresas y los gobiernos de todo el mundo. Sin embargo, hay un aspecto fundamental de la IA que se sigue descuidando: la mala calidad de los datos.
Los algoritmos de IA dependen de datos fiables para generar resultados óptimos; si los datos son sesgados, incompletos, insuficientes e inexactos, se producen consecuencias devastadoras.
Los sistemas de IA que identifican las enfermedades de los pacientes son un excelente ejemplo de cómo la mala calidad de los datos puede conducir a resultados adversos. Cuando se ingieren con datos insuficientes, estos sistemas producen diagnósticos falsos y predicciones inexactas que dan lugar a diagnósticos erróneos y retrasos en los tratamientos. Por ejemplo, un estudio realizado en la Universidad de Cambridge sobre más de 400 herramientas utilizadas para el diagnóstico de Covid-19 descubrió que los informes generados por la IA eran totalmente inutilizables, a causa de conjuntos de datos defectuosos. En otras palabras, sus iniciativas de IA tendrán consecuencias devastadoras en el mundo real si sus datos no son lo suficientemente buenos.
¿Qué significan los datos «suficientemente buenos»?
Existe un gran debate sobre el significado de los datos «suficientemente buenos». Algunos dicen que los datos suficientemente buenos no existen. Otros dicen que la necesidad de datos buenos provoca una parálisis en el análisis, mientras que HBR afirma rotundamente que sus herramientas de aprendizaje automático son inútiles si su información es terrible.
La mayoría de las empresas luchan con la calidad y el gobierno de los datos más de lo que admiten. Además, están abrumadas y bajo una inmensa presión para desplegar iniciativas de IA para seguir siendo competitivas. Lamentablemente, esto significa que problemas como los datos sucios ni siquiera forman parte de las discusiones de la sala de juntas hasta que provocan el fracaso de un proyecto.
¿Cómo afectan los datos deficientes a los sistemas de IA?
Los problemas de calidad de los datos surgen al principio del proceso, cuando el algoritmo se alimenta de datos de entrenamiento para aprender patrones. Por ejemplo, si a un algoritmo de IA se le proporcionan datos de redes sociales sin filtrar, recoge abusos, comentarios racistas y misóginos, como se ha visto con el bot de IA de Microsoft. Recientemente, también se cree que la incapacidad de la IA para detectar a las personas de piel oscura se debe a datos parciales.
¿Cómo se relaciona esto con la calidad de los datos?
La ausencia de gobernanza de los datos, la falta de concienciación sobre la calidad de los datos y las vistas aisladas de los datos (en las que se puede haber notado esa disparidad de género) conducen a resultados deficientes.
Cuando las empresas se dan cuenta de que tienen un problema de calidad de datos, entran en pánico a la hora de contratar. Se contratan ciegamente consultores, ingenieros y analistas para diagnosticar, limpiar los datos y resolver los problemas lo antes posible. Desgraciadamente, pasan meses antes de que se produzca ningún progreso y, a pesar de gastar millones en la plantilla, los problemas no parecen desaparecer. Un enfoque instintivo de un problema de calidad de datos no es muy útil.