Arquitectura de datos: Cómo no caer en el cuento de la lechera de los mercados de datos

Artículo de opinión de Pablo Manuel García,  físico de formación, siempre vinculado a la explotación del dato sobre arquitecturas de datos distribuidas y Data&AI Expert Sales en T-systems Iberia.

Pablo Manuel García

Desde sus primeras posiciones como desarrollador Python y devops, hasta su actual rol de venta especializada en Data e IA. Su pasión, acercarse a diferentes verticales de negocio, entender sus peculiaridades y ayudarles a generar valor a través de la tecnología. Hoy, comparte con Big Data Magazine este artículo sobre arquitecturas de datos distribuidas. 

El valor del dato

Hace muchos años que los tecnólogos nos ponemos camisetas con frases más o menos ingeniosas hablando del valor del dato. Decimos que el dato es el nuevo oro, petróleo, aceite, bacon… Todos vamos siendo conscientes, con mayor o menor profundidad, de esta realidad y de la necesidad de subirse a esta ola. Entendemos que podemos explotar esos datos para tomar mejores decisiones o eficientar procesos, independientemente de que aterrizar y llevar a la práctica esas ideas en la vida real sea una tarea más o menos compleja en función del nivel de madurez de cada entorno. La era del Big Data, del Machine Learning y, ahora de los grandes modelos de lenguaje, nos han ido abriendo nuevas perspectivas sobre el valor que somos capaces de extraer de los datos que manejamos.

Identificar los casos de uso

No en pocas ocasiones hemos visto cómo esto ha ido creando ilusiones que han llevado a invertir grandes cantidades de dinero en infraestructuras donde almacenar datos sin tener claro el uso que se podría hacer de ellos. Tan sólo por el convencimiento de que ese valor intrínseco estaba ahí y sería cuestión de tiempo identificar los casos de uso adecuados para exprimirlo. Los resultados han sido muy diversos. Hay quien ha encontrado un buen retorno de inversión, pero también quien se ha arrepentido porque, como en el cuento de la lechera, no han sido capaces de extraer el valor esperado.

En algunos casos los datos de mala calidad han provocado que se rompiera la lechera; en otros, se toparon con trabas legales o éticas para explotarlos. En cualquier caso, en mi experiencia hay un factor que ha sido y sigue siendo determinante en muchas empresas: la falta de madurez en la orientación a productos de datos.

Equilibrio entre tecnología y negocio

La orientación a producto (sin el apellido de datos) ha sido un tema caliente en los últimos años. Están ya ampliamente extendidas las metodologías agile que integran perfiles de IT y negocio, empoderando a los equipos de desarrollo de sus productos y enfocándose en la entrega de valor. Para facilitar eso desde el punto de vista más técnico se han ido extendiendo los marcos de trabajo basados en arquitecturas de microservicios y Domain Driven Design. Arquitecturas que tienden a descentralizar, a romper el nicho de lo que eran los departamentos de IT aislados de las áreas de negocio. Ese alineamiento, entre tecnología y negocio, ha demostrado que es capaz de dar respuesta a muchos de los problemas que las empresas sufrían a la hora de evolucionar tecnológicamente y vemos cada vez más empresas con una cultura muy madura ya en este sentido.

Sin embargo, aun en empresas que han recorrido ese camino de forma exitosa, vemos que cuando hablamos de datos nos encontramos una situación muy análoga. Cuesta encontrar el valor de negocio, se invierten grandes cantidades de dinero en tecnología sin tener claro el retorno. Quizá el auge de la IA Generativa en los últimos tiempos ha venido a enfatizar esa falta de alineamiento. Es muy común ver a empresas que lanzan pruebas de concepto con asistentes cognitivos y grandes modelos de lenguaje como una pura prueba tecnológica. O tomando decisiones basadas en modas, sin tener un estudio claro del retorno, ni del recorrido de negocio de ese producto.

Arquitecturas de datos distribuidas

Hay muchos factores que pueden explicar esta situación. No pretendo indagar en ellos, pero, en mi opinión, hay una respuesta clara de cómo debe evolucionar una empresa para solventar esa situación. Del mismo modo en que decíamos que la orientación a producto se sustentó sobre arquitecturas de microservicios para romper el nicho de los departamentos de IT, cuando hablamos de productos de datos, debemos atacar esa descentralización con arquitecturas de datos distribuidas. Aquí encontramos dos conceptos fundamentales que están empezando a destacar: Data Mesh y Data Fabric. No voy a dar una visión técnica detallada de lo que implica cada uno de estos conceptos, pero a alto nivel digamos que vienen a sustituir esa idea del Data Lake como un «cajón de sastre» donde se volcaban datos de forma más o menos desordenada para que alguien, en algún momento, se pusiera a intentar pescar algo.

Data Fabric

Data Fabric pone las bases tecnológicas para que las áreas de negocio tengan un punto de acceso único, bien documentado y organizado, de los datos de la empresa.  Independientemente de que éstos estén heterogéneamente distribuidos a lo largo de las diferentes áreas de negocio (sus legítimos dueños). Hace por tanto, en cierto modo, una labor de coordinación y, si se quiere, centralización de la información. 

Data Mesh

Por su lado, Data Mesh es más un marco de trabajo y de gobierno de los datos que delega la responsabilidad última de los datos en los diferentes dominios de negocio, otorgando esa visión de producto. Un concepto clave en Data Mesh es el de producto de datos, que se consigue a través de una apificación de los datos. Esa apificación extiende el concepto de producto de datos más allá de los datasets, a productos que pueden ser apis de consulta o de inferencia contra modelos de IA. De este modo, las áreas de negocio serán las responsables de sus productos de datos que pondrán a disposición de otras áreas a través de un marketplace interno.

Si tenemos en cuenta además que en muchas ocasiones las infraestructuras y servicios necesarios para la explotación de los datos son caras, podemos mantener un control sobre cómo unas áreas consumen productos de otras. Metiendo en la ecuación los costes y el valor de los productos se pueden repartir los presupuestos de las diferentes áreas de la compañía. Estamos hablando, en definitiva, de monetizar los productos de datos y de construir una suerte de mercado de datos interno en la compañía.

El mercado de datos

Acabamos de mencionar el concepto de mercado de datos, una idea que, a nivel global, está empezando a tomar forma. Existen marketplaces donde uno puede publicar sus productos, aunque de momento son iniciativas lideradas generalmente por los hiperescalares que no parece que vayan a confluir en ningún momento. Las iniciativas más interesantes con aspiración globalizadora que empiezan a coger tracción son la International Data Spaces Association y Gaia-X, que intentan definir unos protocolos, arquitecturas y, en definitiva, reglas del juego para garantizar un intercambio seguro y monetizable de productos de datos.

Algunos espacios de datos, como Catena-X para el sector de auto, empiezan a rodar y generar casos de uso realistas en los que ecosistemas de empresas que comparten o comercian con datos, explotando sus sinergias e intereses comunes. Parece claro que esos mercados están avanzando a gran velocidad, despertando mucho interés y sólo falta que empresas diversas desde diferentes ecosistemas entren a formar parte del juego para que esto escale y eclosione como una nueva economía del dato.

¿Cómo preparar a las empresas con arquitecturas de datos distribuidas?

Estos nuevos mercados se pueden convertir en una realidad en el corto-medio plazo. Serán una fuente adicional de negocio para muchos sectores además de enriquecer sus propios procesos con los nuevos productos que se generen o disponibilicen. Pero no queremos apostar por tendencias tecnológicas y caer de nuevo en el cuento de la lechera. La gran pregunta que hay que responder es: ¿cómo puedo preparar a mi empresa para jugar en esas ligas? Y la respuesta, en mi opinión, pasa por adoptar primero arquitecturas de datos distribuidas y una cultura de orientación a productos de datos dentro de la compañía.

Este proceso de cambio reportará eficiencias y beneficios de forma inmediata que se reflejarán en la mejora de los procesos internos, al mismo tiempo que preparará a la empresa para identificar, explotar y monetizar productos de datos en esos nuevos mercados.

TE PUEDE GUSTAR

EVENTOS

RECIBE NUESTRA NEWSLETTER

*Email:

*Nombre:

*Empresa:

Cargo:

Sector:
     

Please don't insert text in the box below!

ESCUCHA NUESTRO PODCAST

SÍGUENOS EN RRSS

MÁS COMENTADOS

Scroll al inicio