Artículo de Sergio Gordillo, Business Development Manager de Keepler Data Tech.

Según datos publicados por IDC, solo en 2020 se crearon 64,2 Zetabytes de datos, cifra muy cercana a la capacidad de almacenamiento total instalada que alcanza los 6,8 Zetabytes. La explosión de generación de datos tiene mucho que ver con el impulso de la Covid-19, que disparó el consumo por trabajo y educación remotas, aumento del ocio digital y de consumo de redes sociales.
Sin embargo, de todo este volumen de datos en constante crecimiento, hasta 2021 solo se han guardado y almacenado el 2%, la gran mayoría restante o bien se pierde o bien forman parte de lo que se conoce como “datos efímeros”, aquellos únicamente asociados al momento del consumo, que requieren almacenamiento solo temporal, o que son actualizados o sobrescritos con datos nuevos.
En este contexto, lo que está claro es que las compañías deberían preparar sus sistemas para capturar más información. Los datos son y serán un valor de negocio clave para las organizaciones, permitiéndoles entrar en lo que se conoce como el círculo virtuoso de los datos: la captura de datos permite generar información de valor, que analizada y explotada, genera insights de negocio para mejorar la toma de decisiones y generar más ventas, las cuales volverán a entregar más datos que generarán nuevos insights.
Más datos, nuevos retos
Con tal volumen de información, muchas organizaciones se enfrentan a retos relacionados con la gestión, organización y consumo ordenado del dato, más si cabe en entornos de tecnología cloud e híbridos.
A medida que la organización escala, aparecen nuevas necesidades e iniciativas que, en muchos casos, implican la construcción de repositorios de datos dispersos en distintas áreas, con distintas tecnologías y con distinto modo de consumo.
En muchas ocasiones, esta situación presenta problemas derivados del mantenimiento de estos repositorios de información que pasan a ser silos aislados. La generación de silos en la organización trae derivados problemas como el desconocimiento o inaccesibilidad de la información por parte de las distintas unidades de negocio, que trabajan sin visibilidad de lo que hacen otras áreas y sin aprovechar el valor que estas generan; la replicación del trabajo en distintas áreas y departamentos, repitiendo tareas una y otra vez cuando se podrían generar sinergias más eficientes; la incapacidad de poner en marcha iniciativas de casos de uso que consuman datos, ante la falta de conocimiento de la existencia de los mismos; la falta de confianza y fiabilidad en los datos existentes, causada por la propia gestión aislada y sin criterios comunes y compartidos, lo que lleva a su no uso o a dedicar excesivo tiempo a validarlos; y, por último, y quizás más clave, la inexistencia de una figura que represente y vele por la calidad y consistencia de los datos en el conjunto de la organización.
Pero, en un escenario así, no está todo perdido. Existen mecanismos que ayudan a enfrentar estos retos y que pasan por realizar un trabajo de descubrimiento del dato y de definición de palancas del cambio dentro de la organización.
La colaboración es indispensable, a través de trabajar estrechamente con y entre los representantes de negocio de cada área generadora de iniciativas y de datos dentro de la organización; la clasificación de dominios de datos de la organización, complementándolo con la definición de subdominios y datasets que pertenezcan a cada uno de ellos; el identificar el dominio técnico de cada uno de esos datasets; la definición de un framework de trabajo en cuanto a clasificación, catalogación y control de calidad del dato; y, todo ello, apoyado en una herramienta de gobierno del dato que ayude con la puesta en marcha del modelo de gestión y de gobierno.
La puesta en marcha de este tipo de mecanismos no es directa ni inmediata, implica una gestión del cambio dentro de los equipos de negocio e IT que requieren capacitación y tiempo. No obstante, una vez definido el marco de trabajo, hay ciertas labores que se pueden realizar de una manera distribuida en los distintos departamentos y equipos de trabajo y que ayudan enormemente a que la gestión del dato sea exitosa.
- Distribuir la tarea de descubrimiento del dato inicial entre los equipos generadores de datos.
- Establecer un modelo de gestión del dato (Data Owner, Data Steward) donde cada área se responsabiliza de sus dominios de datos.
- Repartir las tareas de catalogación del dato técnico y de negocio.
- Definir claramente los mecanismos de acceso al dato y los responsables de los mismos.
Para la gestión y supervisión de estas tareas distribuidas, son necesarias herramientas y soluciones tecnológicas. Por ejemplo, algunas organizaciones tienden a apoyar su gestión y gobierno del dato en suites completas, listas para usar y licenciadas tipo Collibra o Informatica. También existen soluciones propias de los proveedores cloud y versiones open source que permiten una customización de los procesos y funcionalidades a las necesidades concretas de cada organización, como son Apache Atlas o Datahub.
Este tipo de plataformas o herramientas ofrecen una serie de funcionalidades comunes: catálogo y organización de los datos y dominios de los datos, definición de roles y administradores del dato en sus distintos sabores, implementación de glosarios de términos de negocio, linaje del dato e información de consumo, funcionalidades de explotación del dato, reporting de uso y consumo…
En definitiva, la gestión eficaz y eficiente del dato requiere dar varios pasos indispensables: una fase de descubrimiento del dato de la organización, una fase de definición y consolidación de un marco de trabajo en cuanto a calidad, ownership y organización del dato y una etapa de aterrizaje e implantación tecnológica que nos ayudará en la puesta en marcha y en la implementación de ese marco de trabajo.
Las organizaciones que sean capaces de acometer esta transición a una gestión del dato más distribuida, accesible y eficaz, conseguirán implementar, más fácilmente y de forma exitosa, una cultura del dato dentro de la organización.