En nuestro afán por seguir conociendo a los profesionales del dato en el sector energético hemos entrevistado a Alexander Ratanov, Data Quality Manager en Gazprom Neft. Se trata de una de los cinco productores de petróleo más importante de Rusia, y es una empresa propiedad de Gazprom.
Big Data Magazine (BDM): ¿Cuándo comienza la relación de Gazprom con la gestión de los datos y cómo ha sido su evolución hasta nuestros días?
Alexander Ratanov (AR): Actualmente, cualquier compañía debe gestionar enormes cantidades de datos en diferentes formatos y desde numerosas fuentes. Todos somos conscientes de la digitalización de la economía y de la necesidad de ser data driven para ser una compañía competitiva.
La analítica juega un papel fundamental en Gazprom Neft, hasta el punto de haberse vuelto indispensable. La capacidad que nos ofrece Qlik para captar, analizar y compartir los datos prácticamente en tiempo real nos permite tomar decisiones más acertadas en menor tiempo, a un menor coste y generando un mayor valor para la compañía.
Nuestra historia de gestión de datos comenzó en 2010, cuando se intentó en toda la empresa implementar un sistema de gestión de datos maestros y se organizó un único sistema de datos de referencia de alto nivel.
Posteriormente, en 2012, la directiva decidió implementar el sistema analítico de Qlik, y esto sirvió de catalizador para un desarrollo aún más explosivo en términos de gestión de datos en todos los departamentos de la empresa, y continúa siéndolo en la actualidad. Cuando los usuarios ven los datos, pueden analizarlos en línea, ver inmediatamente las deficiencias en el registro, los procesos de negocios, los datos que se mantienen en Excel y, en última instancia, decidir acerca de mejoras en la gestión de datos.
BDM: Hay personas que definen a los datos como “el petróleo de nuestros días”. En vuestro caso se cumple por partida doble. ¿Sería posible el funcionamiento Gazprom sin Big Data e Inteligencia Artificial?
AR: Efectivamente, todos hemos escuchado esa frase en algún momento. Y, al igual que sucede con el petróleo, los datos por sí solos no sirven de nada. Si no se tiene la capacidad para llegar hasta ellos, tratarlos y para que se tomen decisiones en base a ellos, son irrelevantes. Los datos son realmente un activo de muchísimo valor y, efectivamente, las cosas que hacemos hoy día no serían posibles sin los datos. La captación y análisis en tiempo real nos permiten tomar decisiones de negocio basadas en datos, que tienen valor en el momento presente. Hace unos años, cuando no se disponía de herramientas como las de Qlik para la gestión y el análisis, se invertía mucho más tiempo y recursos para extraer valor de los datos y, para cuando se podía tomar una decisión a partir de ellos, el contexto había cambiado. Las herramientas de Business Intelligence modernas nos permiten actuar ahora, cuando las cosas suceden, y la IA, detectar patrones y anomalías para anticiparnos a las circunstancias.
A día de hoy no es posible tomar decisiones basadas solo en la experiencia. Ya que la empresa tiene datos a partir de los que hacer predicciones y sobre los que aplicar machine learning, hay que hacerlo. En 2015, hicimos una aplicación con Qlik en la que podía visualizarse la previsión de ingresos en las gasolineras, seleccionando de forma automática el mejor modelo de previsión para cada una. Desde entonces, Qlik ha evolucionado de forma significativa y nos ha ayudado mucho en la interpretación y visualización del conjunto de datos de forma rápida y eficaz para nuestros data scientists. Hemos puesto en marcha varios proyectos digitales con el objetivo de sacar el máximo partido y la máxima monetización a los datos. Desde el punto de vista organizativo y estructural, se han identificado varias líneas de desarrollo: personas, procesos y estructura organizativa. La empresa invierte en su propio desarrollo en lo que respecta a la gestión de la recopilación de datos y la estructuración de éstos, lo que hace posible el ML y la IA.
BDM: ¿En qué procesos utilizáis la gestión de datos y en cuales estáis implementándolos poco a poco?
AR: Utilizamos la gestión de datos para todos nuestros procesos de negocio. Una de las soluciones más interesantes es el proyecto de Supply Chain Management, es decir, analizar la cadena completa de venta de productos petrolíferos, desde la recepción del petróleo en las refinerías, hasta la venta de productos petrolíferos al consumidor final. Este tipo de producto es bastante difícil de analizar, ya que no basta con cargar los datos; es necesario utilizar además herramientas de previsión para ver la diferencia entre los valores previstos y los reales. Para ello, hay que considerar muchos factores que afectan a los suministros, la logística, la carga de las instalaciones de planta, la refinación de petróleo y las ventas posteriores.
BDM: ¿La gestión de datos en Gazprom es propia, externa o compartida entre ambas opciones?
AR: Gazprom Neft gestiona sus datos utilizando un modelo interno. Los servicios de gestión de datos se despliegan en servidores físicos y virtuales en la red interna de la empresa. Tal vez en el futuro el modelo de gestión se cambie, pero por el momento es un modelo de gestión interno. Por otra parte, a pesar del modelo utilizado, también usamos datos externos para, por ejemplo, hacer pronósticos, descargar las condiciones meteorológicas, datos de redes sociales, parámetros macroeconómicos como la población de la ciudad, salarios medios, etc.
BDM: ¿En qué proveedores os apoyáis principalmente y para qué procesos?
AR: Gazprom Neft tiene muchas instalaciones de diversos programas de gestión de datos. Por ejemplo, citaría el uso de software en el departamento de ventas regionales. El negocio de esta división es la venta de combustible en su propia red de estaciones de servicio en Rusia, la CEI y Serbia a personas físicas y jurídicas y franquiciados. El proceso comercial de análisis de datos comienza con el envío de productos de refinería desde las fábricas. Utilizamos los componentes de Informatica, Hadoop Arena Data, MSSQL Server, y Qlik para la visualización de datos.
Los datos provienen de fuentes de información en la capa de datos en bruto, que intercambia información con nuestro laboratorio de data science (cuyos componentes son Apache Spark, R, Python) y con un almacén de datos en MSSQL Server. Los componentes de Informatica proporcionan la ejecución de ETL (extract, transform, load), Data Quality y Data Catalog. De esta forma, todo el proceso de procesamiento de datos desde las fuentes de datos hasta el nivel de visualización en Qlik es completamente transparente. Todas las descripciones de dimensiones e indicadores son las mismas para todas las aplicaciones analíticas en Qlik, tal cual las ve el usuario final.
Resultados de la gestión de datos:
- Cadenas de origen de datos actualizadas automáticamente desde la fuente hasta los mercados personalizados y las aplicaciones BI
- Glosario de negocios integrado con el almacén de datos y la capa de presentación de BI
- Catálogo gestionado de normas y controles de calidad de los datos
- Integración perfecta de las reglas de calidad de datos en procesos ETL en el portal de usuario para ver el glosario, los orígenes de los datos y las reglas de calidad de los datos
Lake + Data Warehouse:
- Reducción de los costos de integración de datos para todos los proyectos relacionados con el análisis
- Disponibilidad de datos sobre todas las capas de los pipelines para el usuario
- Integración con herramientas de data science (Lab + Spark + In-database Python, R)
- ETL industrial y herramientas de almacenamiento para todo tipo de datos, streaming y procesamiento por lotes
- Herramientas industriales para crear interfaces de integración
BDM: El Internet de las Cosas facilita mucho el control en las refinerías gracias a los sensores ¿Cómo trabajáis vosotros con esta tecnología?
AR: En las instalaciones de las refinerías utilizamos un gran número de sensores para el análisis en tiempo real de la refinación del petróleo y la producción de productos derivados. Los datos se registran a diferentes velocidades dependiendo de la instalación. Este tipo de datos tan complejos es difícil de analizar solo con Qlik, por lo que utilizamos componentes de data lakes y MPP para preparar los datos, que se agregan a Qlik automáticamente.
Hemos desarrollado data marts en Qlik para analizar el trabajo de las refinerías donde se producen productos petroleros. Como es normal, de vez en cuando nos encontramos con dificultades para obtener datos, pero en general, podemos decir que el sistema funciona perfectamente.
BDM: ¿Es posible un uso ético de los datos? ¿Cómo es la relación de Gazprom con el Data Ethichs?
AR: No solo es posible, sino que es necesario. Los pasos que se están dando en materia de regulación del uso de los datos son realmente importantes, y tendrán que seguir avanzando y replanteándose a medida que cambia también el uso que se hace de los mismos. En este sentido, Gazprom está completamente comprometido con la gestión ética de los datos. Son un activo de gran valor que, utilizados de manera responsable, nos permiten incrementar el beneficio de los usuarios y ofrecerles respuesta a sus necesidades reales. Creemos que, en el caso de Europa, la entrada en vigor de la GDPR hace unos años supuso una llamada a la acción para muchas empresas y ha generado una concienciación en torno al data ethics que se ha ido e irá sofisticando cada vez más.
Incluso antes que en Europa, en 2006, Rusia aprobó una ley sobre datos personales, lo que supuso un reto para muchas empresas, y vimos el esfuerzo que suponía cumplir con ella.
Tanto Gazprom como Qlik cumplimos con todos los requisitos de seguridad de la información. Solo determinados usuarios tienen acceso a datos confidenciales y sensibles. El almacenamiento de los datos también se lleva a cabo de la forma más adecuada posible.
BDM: ¿En qué proyectos trabaja a medio-largo plazo Gazprom para mejorar el rendimiento de sus datos?
AR: Estamos trabajando en muchos proyectos en paralelo, y como nuestros servicios de gestión de datos están descentralizados, podemos hablar del desarrollo paralelo de diferentes funcionalidades, como por ejemplo:
Catálogo de datos: clasificar los datos, construir un glosario corporativo, definir reglas para calcular indicadores y mediciones, y reglas para asegurar la calidad de los datos, etc.
Alfabetización de datos: mejorar la alfabetización de datos, desarrollar el autoservicio, entre otros.
Análisis de datos: desde hace algún tiempo, nuestros usuarios quieren no solo trabajar de manera rápida y eficaz con sus datos, sino también contar con una interfaz excelente. En este momento se han puesto en marcha varias actividades en Qlik Sense a la vez: la creación de nuevos temas, mashups, extensiones en las que participan los diseñadores, etc.