Lucía Engo Bermejo, Customer & Partners Success Manager en Anjana Data.

De acuerdo con el framework de DAMA, un marco de gestión de la calidad de los datos debe incluir actividades para:
- Priorizar las necesidades de negocio
- Identificar datos críticos
- Definir reglas y estándares basados en los requisitos de negocio
- Evaluar los datos contra las expectativas
- Compartir los resultados con los SMEs para detectar problemas
- Priorizar y gestionar los problemas identificados
- Identificar oportunidades de mejora
- Monitorizar la calidad y gestionar los metadatos
Anjana Data y Aqtiva forman un tándem adecuado gracias a las funcionalidades que proporcionan y que permiten realizar todas estas actividades y gestionar así proactivamente la calidad de los datos.
Capacidades para gestionar la calidad de la información
La gestión de la calidad es importante, pero no se debe perder de vista que la calidad “no es gratis”, por ese motivo, DAMA indica que el programa de calidad debe centrarse en los datos críticos. En este sentido, las altas capacidades de configuración de Anjana Data permiten definir plantillas de atributos de metadatos en las que es posible identificar datos críticos en los Dataset o en las Instancias que procesan la información de acuerdo con taxonomías propias de cada organización.
Una vez identificados los datos sobre los que va a trabajar el programa de calidad, el siguiente paso es definir qué es calidad de acuerdo con las necesidades de negocio. De nuevo las capacidades de configuración de Anjana Data son un diferencial en este sentido, ya que permiten definir en las propias plantillas de los datasets o de los dataset fields atributos específicos para definir los requerimientos de calidad de los datos que almacenan (presencia de valores, listas de dominios válidos, mapeo de datos …)
Conocidos y definidos los requerimientos de calidad de los datos, el siguiente paso es definir reglas que permitan medir de forma objetiva si los datos cumplen o no cumplen con esos requerimientos. Para ello, se definen reglas en términos de las dimensiones de calidad (precisión, unicidad, completitud, disponibilidad, validez…) En este aspecto, Anjana Data es otro diferencial ya se trata de una herramienta muy flexible que permite posibilita definir un metamodelo que da de soporte a la gestión de la calidad ya que permite:
- Crear y mantener un glosario de reglas de negocio que proporciona la transparencia que todo programa de gestión de calidad necesita gracias a que todos los usuarios de la organización pueden tener un usuario para conocer cómo se evalúa la conformidad de los datos.
- Definir en qué sistemas se establecen controles de calidad de datos pasando por las aprobaciones de gobierno del dato, es decir, dónde se ejecutan las reglas de calidad a la vez que conocer los resultados de dichos controles. No hay que olvidar que los controles de calidad pueden penalizar el rendimiento de las aplicaciones y sistemas, por este motivo, deben estar bien gobernados (definir la frecuencia de ejecución, ventana, nº de activos afectados…) y haber sido aprobados previamente.
Imagine el lector la potencia que proporciona todo lo comentado anteriormente pudiendo visualizar en el grafo del linaje no solo los controles de calidad, sino las reglas aplicadas en cada control, siempre con la posibilidad de navegar al detalle de ambos y redirigir al usuario directamente a Aqtiva, gracias a que Ttanto las plantillas de atributos de metadatos de las reglas de calidad como de los controles definidos en Anjana Data se pueden configurar y sincronizar vía API con los metadatos de Aqtiva Management Platform, plataforma en la que los roles responsables de la gestión de la calidad implementan todos estosreglas y programan controles de forma interactiva y sencilla con gracias a la interfaz visual de Aqtiva.
Profundizando en la definición de estas reglas y controles, cabe destacar que uno de los diferenciales de Aqtiva es que facilita la definición de reglas a usuarios no técnicos, sin perder la posibilidad de que usuarios más avanzados puedan entrar a grano fino desde el punto de vista técnico.
Una vez se han definido las reglas y programados los controles, Aqtiva genera informes de calidad que gracias a los mecanismos de sincronismo existentes entre ambas herramientas pueden cortar por dimensiones traídas desde Anjana Data. De la misma manera, en Anjana podemos establecer enlaces a estos informes de calidad para que los usuarios naveguen entre ambas herramientas de forma sencilla y sin apenas percibir que están cambiando de herramienta.
De esta forma es posible, por ejemplo, disponer de un enlace a los informes de calidad de datos generados por Aqtiva o que estos informes corten por dimensiones traídas desde Anjana Data.
Para poder evaluar si los datos cumplen o no con las reglas definidas, Aqtiva Management Platform proporciona una interfaz visual para la definición de políticas de calidad, así como para su ciclo de diseño e implementación. La tecnología sobre la que se implementa Aqtiva permite una fácil integración tanto con buses de datos (como Kafka), como bases de datos documentales o bases de datos SQL, así como tecnologías de blobs como Azure Storage o S2, lo que permite hacer controles de calidad tanto sobre datos en tránsito como sobre datos en reposo. Gracias a la integración nativa entre Aqtiva y Anjana Data, los resultados de los controles se muestran en las plantillas de metadatos de las entidades de Anjana gracias a las APIs.
Aqtiva dispone además de un motor de análisis que da un paso más en la automatización de la calidad de los datos. Basado en datos históricos, este motor recomienda configuraciones de calidad óptimas y proporciona reglas de calidad dinámicas basadas en patrones de datos de comportamiento, dando a los usuarios recomendaciones de reglas para que no tengan que analizar por sí mismos las fuentes de datos, de esta forma, Aqtiva las analiza y recomienda el conjunto óptimo de reglas de calidad. La ejecución de estas reglas además permite un escalado tanto horizontal como vertical al ejecutarse sobre un motor Big Data en Spark, minimizando el impacto en rendimiento de la ejecución de las reglas
Una vez se han ejecutado controles para medir la conformidad de los datos, es fundamental la monitorización mediante cuadros de mando para, de esta forma, evaluar el impacto del programa de calidad y actuar tan pronto como ocurra un problema. En este sentido, Aqtiva incluye un panel personalizado y KPI de calidad que proporcionan información en tiempo real sobre la calidad de los datos ingeridos en el sistema del cliente. Permite el desglose y la definición de ontologías de calidad personalizada, por lo que es posible generar KPI detallados. Esta información se proporciona en tiempo real, lo que permite la detección reactiva de anomalías de calidad y acciones contramedidas tempranas. Así mismo, permite definir conectores de salida, permitiendo que la información sea exportada a sistemas de Reporting de los clientes para poder generar sus propios dashboards o reports.
Por otro lado, Anjana Data bajo su filosofía de no vendor lock-in ofrece acceso a su base de datos para que la organización desarrolle sus propios cuadros de mando en base a toda la metadata almacenada en Anjana Data. Además, para todas aquellas organizaciones que no dispongan de herramientas de dashboarding, Anjana Data proporciona en su despliegue Hue y Grafana para que la organización construya sus propios dashboards a medida.
Data Quality team journey
En el apartado anterior se han detallado las actividades puramente relacionadas con la gestión de la calidad, desde la identificación de los datos sobre los que se va a centrar el programa, la definición de qué es calidad, la ejecución de controles y la monitorización.
Sin embargo, muchas veces los problemas de calidad vienen determinados por una falta de entendimiento. Es muy frecuente encontrarse en una reunión en la que un director pide un dato y según a quién le pregunte, el dato que le ofrezca sea diferente. Esto es debido a una falta de definición única del dato, lo que afecta al cálculo de los datos, a la toma de decisiones, etc. Por este motivo, resulta muy útil disponer de un glosario de negocio como el que ofrece Anjana Data donde proporcionar un vocabulario único a toda la organización con un sello de aprobación por parte de gobierno del dato. De esta forma, se mejora el entendimiento, así como la calidad y la confianza en los datos.
Por otra parte, al igual que en gobierno del dato, es sumamente importante adoptar un enfoque preventivo ya que el objetivo de un programa de calidad no es medir y limpiar datos sino mejorar la calidad y encontrar un mayor número de oportunidades para obtener valor de la información. Para ello es fundamental:
- Definir controles de entrada de datos (uso de metadatos de referencia, controles de calidad al vuelo…)
- Gobierno proactivo y preventivo pasando por las aprobaciones de gobierno del dato de forma previa a la puesta en producción, con controles de impacto, etc
- Promover un cambio cultural a través del cual los responsables de los procesos de negocio que crean los datos se hagan responsables de la calidad de los datos generados. Por otra parte, desde IT se deben velar por la calidad y reservar presupuestos en los desarrollos para que estos vengan acompañados de controles que monitoricen la calidad
- Encontrar oportunidades para mejorar la calidad y la usabilidad, por ejemplo, a través del enriquecimiento de datos
Gracias a Anjana Data y Aqtiva como motor de ejecución de controles, la organización cuenta con todas las herramientas para poder gestionar adecuadamente la calidad de forma preventiva. Dentro de Anjana la organización cuenta con un espacio colaborativo donde gobierno, negocio e IT pueden colaborar para definir controles, gobernar sus activos de forma proactiva y mejorar la usabilidad de la información. Además, Anjana Data ofrece al resto de usuarios transparencia total sobre esta gestión gracias al módulo de workflows, linaje y el portal de datos.
No obstante, a pesar de todo lo mencionado anteriormente, los problemas de calidad surgen y se deben abordar los problemas. El modelo de resolución de problemas es un proceso cíclico que DAMA representa mediante el ciclo de Shewhart Deming.
- En la fase de Plan se analiza el alcance de los problemas (para esto puede ser muy útil realizar perfilados de datos), el impacto y se priorizan. A continuación, se evalúan distintas alternativas para su resolución
- En la fase de Do se realizan esfuerzos para abordar las causas origen (estandarización, controles de entrada…) y remediar los problemas (limpieza de datos). Además, en esta fase se dejan implementados controles para monitorización constante de la calidad
- En la fase de Check se analizan los efectos de las medidas implementadas y se monitoriza que la calidad no vuelva a caer por debajo del umbral
- En la fase de Act se actúa de nuevo si salta una alarma porque la calidad cae por debajo del umbral, si los requerimientos cambian o si hay nuevos conjuntos de datos bajo análisis
Aqtiva es un gran aliado para realizar todas estas actividades. Durante la fase de Plan, Aqtiva proporciona mecanismos para descubrimiento de tablas, esquemas de datos y realización de perfilado de datos (volumen de datos, cantidad de nulos, media, desviación estándar, varianza, datos fuera de rango, histograma, correlaciones, valores únicos o valores mínimo/máximo/medio) con el diferencial de que es capaz de realizar recomendaciones inteligentes basadas en el análisis de datos
Durante las siguientes fases, Aqtiva permite planificar la ejecución de medidas de calidad de forma que se automatiza la validación periódica de todos los datos y reglas. Además, Aqtiva permite definir umbrales de aviso de dos niveles que pueden estár sincronizados con Anjana Data, de esta forma, genera dos tipos de avisos: error y warning. Estos umbrales pueden definirse como un número máximo de datos erróneos, un porcentaje respecto al total de datos y permite definir dos acciones: avisos mediante logs o email o lanzamiento de una excepción que pueda parar el flujo de ejecución (por ejemplo, para parar un proceso de ingesta en caso de que la calidad no sea la adecuada)
Como último punto a tener en cuenta a la hora de gestionar la calidad, es fundamental para el éxito del programa de calidad que los consumidores de datos tengan acceso a toda la información relacionada con el seguimiento de incidencias. Para esto, la flexibilidad de las plantillas y la integración nativa entre Anjana Data y Aqtiva también es un diferencial, ya que cualquier usuario puede conocer si hay incidencias asociadas a un determinado dato, navegar al ticket de la incidencia, identificar responsables, conocer cómo evoluciona la calidad, etc.
Consumer journey
Cuando un usuario busca información dentro de su organización, se encuentra muchas barreras que Anjana Data le ayuda a romper.
Un usuario que está buscando datos que no dispone en su área puede entrar en Anjana Data para averiguar si esos datos existen en su organización. Para ello, puede acceder al portal de datos y realizar una búsqueda utilizando el buscador y los filtros de Anjana.
Con los resultados obtenidos, el usuario navega al detalle del objeto para conocer mejor el contenido y determinar si es eso lo que estaba buscando o no. Una vez el usuario haya encontrado la información y antes de solicitar acceso, seguramente querrá conocer si los datos tienen la calidad que necesita o no. Para ello, buscará en la plantilla un menú y sección específico donde se muestren metadatos de calidad como por ejemplo la salud global de los datos, umbral de calidad mínimo, conocer si hay incidencias asociadas, si los datos han sido corregidos o acceder a un dashboard de seguimiento de la calidad.
Por otra parte, para mejorar su confianza en los datos, querrá saber qué tipo de controles o qué reglas se han utilizado para conocer el resultado de la calidad global, cada cuanto se ejecutan estos controles, cuando fue la última vez que se revisaron, etc. Todo esto lo encontrará en el apartado de relaciones, donde encontrará todo el detalle relacionado con las reglas utilizadas para medir la conformidad, y visualmente lo podrá conocer a través del linaje.
Además, estará interesado en saber a quién debe acudir si hay un problema de calidad o con quién resolver dudas. Toda esta información la puede obtener en Anjana Data por medio de las plantillas y a través de la pestaña de Stakeholders.
Una vez el usuario esté convencido de que esa es la información que necesita y que cuenta con la calidad necesaria, desde Anjana Data podrá solicitar acceso añadiendo el activo al carrito de la compra y firmando un contrato de datos.