Share on facebook
Share on twitter
Share on linkedin
Share on pinterest
Share on whatsapp
Share on telegram
Share on email
Ignacio Bocos García, Director de Data & Models Bankia.

Para Immanuel Kant “la inteligencia de un individuo se mide por la cantidad de incertidumbres que es capaz de soportar”.

La crisis del COVID – 19, al ser probablemente uno de los episodios con mayores incertidumbres de los últimos años, ha tensionado la inteligencia de la ciudadanía no sólo por suponer un drama en términos sanitarios y emocionales sino, adicionalmente, por la vorágine de información, datos y predicciones, nacionales e internacionales, sobre la evolución de la pandemia a los que se nos ha sobrexpuesto.

La relevancia del uso de datos correctos, claros y exactos es obvia de cara a la toma de decisiones ya que en caso contrario ésta podría provenir de impulsos o asimetrías indeseables. No debería ser menos obvio que su uso, a través del Data Science, debe evitar la incorporación de sesgos inapropiados que podrían desencadenar en una toma de decisiones que, estando basada en datos, sería totalmente equivocada por lo que contaminaría tanto la gestión de esta crisis como la comunicación posterior del progreso de la pandemia.


Sin embargo, la aparición de sesgos en los procesos del Data Science es un riesgo que hay que tener presente de cara a la construcción de un proceso analítico y / o de predicción robusto. Estos sesgos tienen diversas fuentes siendo las más frecuentes en esta situación los errores en los propios datos (procesamiento o definición de los datos, la falta de representatividad de los datos y la utilización de datos temporales no homogéneos) o en los posteriores análisis realizados sobre estos datos (estructura de los modelos, extrapolación, la aparición de la falacia ecológica y el p-hacking).

Durante esta pandemia, estamos, implícitamente y de manera indeseada, siendo espectadores diariamente de la aparición de estos sesgos.

En el ámbito propio de los datos, en primer lugar, es claramente inexistente un criterio homogéneo a la hora de definir los datos de la pandemia ya que varía según la interpretación sobre las pautas recibidas que realizan los distintos países o incluso las regiones de un mismo país. Este punto es clave ya que afecta a aspectos tan básicos como a la contabilización de los afectados por la enfermedad drenándose de esta forma la comparabilidad de la información disponible.

En segundo lugar, la consistencia temporal de los datos es razonablemente cuestionable ya que se está asistiendo a una continua carrera de modificaciones en las reglas de contabilización de los afectados que no se están trasladando a los datos históricos de la serie de información. Este hecho hace que la serie temporal de la pandemia no sea comparable en términos diarios al no existir un reprocesamiento correcto de la información publicada por los distintos organismos.

En tercer lugar, derivado de los dos puntos anteriores, también es desconocido el universo total de afectados ya que la contabilización no se ha realizado de manera homogénea en términos del número de pruebas de identificación realizadas a lo largo de la pandemia. Es decir, los primeros días de la pandemia el número de pruebas diagnósticas (PCR o test rápidos) realizadas en términos relativos era mucho menor que el actual. Evidentemente, este hecho incorpora un sesgo de representatividad sobre los datos reportados públicamente.

En cuanto al ámbito analítico, es muy relevante definir una segmentación apropiada de la información para evitar que se tomen decisiones en base a indicadores influenciados por la concentración de ciertos colectivos que pueden sesgar las métricas promedio globales. Por ejemplo, ciertas comunidades autónomas (Madrid, Cataluña) representan la mayor parte de los afectados, en parte, por el mero hecho de que estos territorios concentran un porcentaje muy elevado de la población española. Por tanto, realizar exclusivamente un análisis en términos absolutos a nivel nacional podría conllevar que se tomen decisiones que no tengan en cuenta las particularidades de los colectivos que en términos absolutos pesan poco, pero que en términos relativos pueden tener una incidencia diferente a la media española. Éste es el caso de La Rioja que ha sido una de las comunidades más golpeadas por la pandemia.

Sin necesidad de partir del punto anterior, se están produciendo otros tipos de sesgos como pueden ser el de la extrapolación incorrecta en base a una segmentación inadecuada o a la premisa aún por confirmar que establece que la tasa de mortalidad es la misma independientemente de las características sociodemográficas de un territorio. En cambio, suponer que únicamente segmentando los afectados por territorios el análisis realizado es correcto podría implicar que se caiga potencialmente en la falacia ecológica suponiendo una uniformidad de comportamiento en todos los individuos afectados únicamente por pertenecer a un territorio determinado.

Evidentemente la gestión de una situación tan dramática y sobrevenida como la generada por el COVID – 19 es muy complicada, y, sin duda, los mejores aliados en la toma de decisiones son los datos de calidad y los respectivos análisis de los mismos. Estos deben ser especialmente cuidadosos en el control de la aparición de los sesgos comentados que, incorrectamente tratados y / o neutralizados, pueden afectar a lo más valioso que tenemos, que es nuestra vida y la de nuestros seres queridos.

Por tanto, es necesario el fortalecimiento de la captura de la información en todos los ámbitos relevantes para la sociedad con criterios homogéneos y, así, que el uso de la misma se realice bajo unas premisas éticas consensuadas para conseguir que los ciudadanos reciban información adecuada al haber sido tratada y transmitida con el mayor rigor posible. De esta forma se evitan los sesgos que puedan aparecer y que pueden conllevar una gestión ineficiente e ineficaz.

Se hace imprescindible, en línea con lo anterior, que los distintos agentes que forman parte del mundo analítico dediquen esfuerzos a la construcción de unos Principios de Ética en el Data Science (Data Ethics) pivotando sobre el concepto de que las personas tienen que estar en el centro.

De esta manera, es preciso establecer un código de conducta para Data Scientists con el fin de dotar de mayor transparencia, igualdad, homogeneidad técnica, responsabilidad y sostenibilidad a la captura de la información y su posterior tratamiento bajo un entorno analítico. Este código ético, comparable al existente en otras profesiones, ayudará de manera decisiva a mitigar sesgos cuya resolución es más fácil en un entorno de decisión Data Driven que en un entorno de decisión clásico.

En definitiva, el acceso masivo a la información y su posterior puesta en valor es la revolución industrial que nos ha tocado vivir siendo el Data Science una de las herramientas principales de este cambio productivo al actuar como un catalizador si se usa bajo unos cánones éticos compartidos con el objetivo de progresar como sociedad.

Share on facebook
Share on twitter
Share on linkedin
Share on pinterest
Share on whatsapp
Share on telegram
Share on email

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

TE PUEDE GUSTAR

ARTÍCULOS MÁS RECIENTES

RECIBE LA NEWSLETTER

*Email: *Nombre apellidos: *Empresa: Cargo:

Sector:
     

Please don't insert text in the box below!

ESCUCHA NUESTRO PODCAST

SÍGUENOS EN RRSS

MÁS COMENTADOS

Ir arriba