“La agilidad en el acceso y entrega de información es lo que más demandan los CDOs”

Uno de los grandes problemas en la ciencia del dato es encontrar y unificar todos esos datos bajo un mismo paraguas para poder entenderlos y sacarles partido. Una de las empresas pioneras en este sentido es DENODO, entrevistamos a Anastasio Molano, SVP Tecnología y Soluciones. 

BigData Magazine (BdM): ¿Cómo podemos conseguir un proceso ágil y eficiente en la entrega de datos a negocio?

Anastasio Molano (AM): Cada vez es más difícil entregar de forma ágil datos integrados al negocio porque el volumen y la variedad de fuentes de datos en las empresas no para de crecer. El problema es que muchas empresas siguen trabajando con métodos de integración basados exclusivamente en la replicación masiva de datos, lo que conlleva en la práctica a generar nuevos repositorios de datos que son difíciles de gobernar. Surgen fácilmente inconsistencias en los datos lo que repercute en la poca garantía y calidad de los informes con los que trabajan las áreas de negocio.

Hoy en día, Gartner y otros analistas recomiendan utilizar arquitecturas lógicas frente a las arquitecturas tradicionales basadas exclusivamente en la consolidación de la información. Es lo que Gartner denomina el “Logical Data Warehouse” o el “Logical Data Lake” (su homólogo en el mundo de la ciencia de datos), un único punto de acceso lógico a las fuentes de información que expone una capa semántica que garantiza una única fuente de verdad para todas las aplicaciones, evitando con ello las típicas situaciones que surgen cuando informes generados desde distintas herramientas sobre los mismos indicadores acaban generando datos diferentes y a menudo inconsistentes entre sí. Este factor es clave para la gobernanza de los datos. De forma añadida, al ofrecer un punto de acceso unificado, esta capa de data warehouse lógico es el lugar idóneo para definir las reglas de acceso por parte de los usuarios, que pueden ajustarse en función de las vistas de datos que se expongan a los usuarios, en lugar de tener que definirlas fuente a fuente, lo que simplifica enormemente la arquitectura de seguridad.

Al ser una capa lógica, basada típicamente en tecnologías de virtualización de datos, se trata de metadatos que se pueden crear muy fácilmente y modificarse cuando se necesite. Frente a otras alternativas basadas en la consolidación de datos, nuestros clientes consiguen con este enfoque reducciones del “time-to-market” cercanas al 90%. Esta agilidad es clave para garantizar una respuesta adecuada a las necesidades del negocio.

BdM: ¿Cuál es la principal demanda que le hacen llegar los CDOs?

AM: Precisamente es la agilidad en el acceso y entrega de información lo que más demandan actualmente muchos CDOs. También tienen entre sus prioridades el gobierno eficaz del dato, lo cual es difícil de conseguir actualmente con tanta variedad y complejidad de fuentes de datos existentes en la empresa. Las arquitecturas lógicas de las cuales el “Logical Data Warehouse” (o el “Logical Data Lake”) es su máximo exponente constituyen la vía más adecuada para conseguir estos objetivos.

BdM: ¿A qué nos enfrentamos en el ecosistema actual de fuentes de datos estructuradas y no estructuradas?

AM: Las empresas trabajan cada vez con más fuentes que no casan con el modelo tradicional totalmente estructurado en el que se han basado históricamente los data warehouses. Estamos hablando de datos con naturaleza jerárquica como documentos json, xml, etc., pares clave-valor, estructuras en grafo, etc., que precisan modelos de datos más flexibles, de ahí la explosión del uso de soluciones NoSQL, y del ecosistema Hadoop en gran medida.

Hoy en día, prácticamente todas las empresas disponen o se encuentran en vías de lanzar una iniciativa de lago de datos. En la práctica, ello ha supuesto que ha surgido un nuevo “silo” de información, a menudo totalmente desconectado del resto de los sistemas de información de la empresa y bajo unas reglas de gobierno que en la mayor parte de los casos son inexistentes. Los usuarios suelen copiar los datos al lago con la esperanza de que pueda dárseles uso en el futuro, pero esta flexibilidad infinita suele acabar en lo que a menudo se denomina “data swap” o ciénaga de datos si no aplicamos reglas apropiadas para el gobierno del dato.

De nuevo las arquitecturas lógicas basadas en la virtualización de datos pueden venir al rescate, ya que disponer de una capa semántica ayuda en gran medida a conocer los datos del lago, al poderse definir vistas lógicas que incluyan un nombrado que sea fácilmente identificable por un usuario de negocio (tanto para la vista en sí como para cada uno de sus campos). Tecnologías de virtualización como Denodo incluyen un catálogo de datos que permite a los usuarios lanzar búsquedas en formato libre sobre los metadatos y los datos para poder identificar fácilmente su naturaleza, clasificar los datos en categorías de negocio, etiquetarlos, etc., ello ayuda en gran medida en el descubrimiento y la exploración de los datos.

Es posible definir las reglas de acceso en la capa lógica y ofrecer diferentes niveles de gobierno de acuerdo a la comunidad de usuarios a la que nos dirijamos. Por ejemplo, podemos ofrecer vistas de datos totalmente curados a nuestros usuarios de negocio de modo que ellos puedan realizar adaptaciones sobre los mismos para satisfacer sus necesidades específicas pero sin realizar grandes cambios, y por otro lado podemos ofrecer acceso a vistas de datos prácticamente en crudo para nuestros usuarios más avezados como los “data citizens” o los científicos de datos que precisan acceso total para poder realizar cualquier tipo de proceso con máxima flexibilidad. Todo ello puede ser regulado bajo un mismo paraguas en la capa de virtualización de datos.

Desde un punto de vista de ciencia de datos, la virtualización de datos viene a ser un acelerador del proceso ya que facilita las fases iniciales de integración, limpieza y preparación de los datos para dejarlos en el formato que los algoritmos de Machine Learning requieren. Nuestros clientes integran librerías de proceso como Python, R o Spark que consumen vistas de datos que se publican en la capa de virtualización.

La ventaja es que puede gestionarse todo el proceso, tanto el tradicional proveniente del mundo estructurado, como el lago de datos bajo un mismo paraguas, la capa de virtualización de datos. Estamos hablando de conjugar de forma flexible los dos mundos, que Gartner califica como “Bi-modal IT”. IT”. Por un lado el proceso riguroso y totalmente estructurado que parte de nuestros informes necesitan (p. e. los informes financieros) versus el modo más flexible que permite una gestión del dato más ágil y exploratoria.

BdM: ¿Está llegando información a negocio o nos perdemos en el análisis?

AM: Según los informes de múltiples consultoras, a día de hoy los analistas de negocio emplean más del 80% de su tiempo en intentar encontrar datos y solo un 20% de negocio a hacer analítica real. Esto es una realidad que se manifiesta de forma muy clara cuando hablamos de lagos de datos.

BdM: Desde su punto de vista, ¿cuándo y cómo se debe democratizar o no el big data entre los usuarios de negocio?

AM: Los repositorios de big data en muchas empresas han sido diseñados para que sean los científicos de datos, y no los usuarios de negocio, quienes hagan uso de ellos. Hay que tener en cuenta que los datos que contiene un big data son demasiado valiosos como para restringir su acceso solo a los científicos. No cabe duda que la inversión realizada en proyectos de big data sería más fructífera si se diera facilidades a los usuarios de negocio para que accedan directamente a dicho repositorio sin depender siempre del cuello de botella que suponen los científicos de datos.

En este sentido algunas consultoras IT hablan del multi-purpose data lake o lago de datos multiuso. Estos entornos no solo permiten el acceso al big data por parte de los usuarios de negocio sino que facilitan también la vida de los científicos de datos. Al igual que comentaba al inicio, una tecnología clave para conseguir un lago de datos multiuso es de nuevo utilizar una capa semántica intermedia entre las aplicaciones de negocio y las fuentes de datos de la empresa. La virtualización de datos es la tecnología que habilita dicha capa semántica.

BdM: Un año después del RGPD ¿cumplen las empresas los requisitos?

AM: Muchas empresas están cumpliendo con los requisitos RGPD, pero vemos que otras aún andan a medias. El problema es que la legislación dijo lo que se tenía que hacer respecto al RGPD, pero no detalló cómo se tenía que llevar a cabo.

De todas formas hay compañías como nuestro cliente Autodesk, líder mundial en software de diseño CAD, que incluso han abordado la adaptación a la regulación como un incentivo para estimular la innovación sin sacrificar los objetivos de ingresos.

Actualmente Autodesk controla el acceso a la información de clientes por parte de las aplicaciones de negocio, ya que aplica reglas en la capa intermedia de virtualización de datos para que se suministre únicamente aquella información para la cual los clientes han proporcionado su consentimiento. De esta forma cumplen con la regla de privacidad y seguridad por diseño de la que habla la normativa RGPD y trazan además de forma sencilla los accesos a la información para una auditoría posterior.

BdM: Algún ejemplo o caso de éxito de un cliente suyo que ponga en valor la recogida y virtualización de datos:

AM: Una gran cadena de retail española ha implementado nuestra solución de virtualización de datos para mejorar la calidad de su servicio final al cliente. Gracias a esta plataforma, el grupo de distribución es capaz de acceder rápidamente a información fiable sobre sus clientes y de entender mucho mejor su comportamiento de compra.

Esta empresa de retail tenía el problema tan común que estamos comentando de que la información (en este caso de sus clientes) se encontraba dispersa entre cerca de 30 repositorios y bases de datos distintas. Esa información era muy difícil de integrar de forma ágil usando procedimientos tradicionales de copia y replicación de datos. Esto provocaba que, cuando el departamento de marketing pedía una vista de datos nueva para hacer analítica y tomar decisiones que repercutieran en un mejor servicio al cliente, el departamento TI podía llegar a tardar meses en tener esa información integrada. Actualmente gracias a la plataforma de Denodo de virtualización de datos, este retailer ha incrementado enormemente la agilidad en su acceso a la información de clientes. De hecho, nos comentan en tono divertido en el área TI que ahora las áreas de negocio tardan más en saber lo que quieren analizar que ellos en suministrar las vistas requeridas.

TE PUEDE GUSTAR

EVENTOS

RECIBE NUESTRA NEWSLETTER

*Email:

*Nombre:

*Empresa:

Cargo:

Sector:
     

Please don't insert text in the box below!

ESCUCHA NUESTRO PODCAST

SÍGUENOS EN RRSS

MÁS COMENTADOS

Scroll al inicio