Data & Analytics forma parte del negocio, incide en la rentabilidad, la performance y en el impacto que las empresas generan. En un contexto con tanta demanda, DataOps busca acortar los ciclos de desarrollo, mantener la calidad de los entregables y evitar caer en soluciones falsas. ¿Por qué es necesario empezar a usar esta metodología?
El estadístico estadounidense Edwards Deming solía decir que sin datos somos solo otra persona con una opinión. Esta filosofía permeó en las empresas y durante los últimos años las áreas de data & analytics estuvieron más exigidas que nunca. Lo cual se tradujo, por un lado, en más proyectos, más confianza y más demanda y, por el otro, en más presión y más problemas.
“Lo que hacemos no sólo está de moda sino que se transformó en una necesidad que llegó para quedarse. Las prácticas en data & analytics, se van adoptando en mayor o menor medida y en un futuro no muy lejano, vamos a estar todos en la misma página” explica Guillermo Watson, Chief Data Officer de Datalytics, consultora totalmente enfocada en brindar servicios de analytics.
Cambios en la forma de trabajo en los últimos años
Los datos se han puesto de moda, esto no quiere decir que trabajar con ellos sea fácil. Las disciplinas que componen data & analytics –ya sea ingeniería de datos, visualización, machine learning, etc.— pasaron de ser algo importante a ser algo crítico para las empresas. Las áreas de datos ahora forman parte del core del negocio, inciden en las ganancias, la performance y en el impacto que las compañías generan. Hasta hace algunos años, un error en un modelo predictivo o en un reporte no era algo significativo, hoy la falla en un pipeline de datos puede dejar a una parte del negocio sin operar y generar un impacto directo en la rentabilidad.
En los últimos años, hubo una explosión en la demanda de datos por parte del negocio. Esto generó la necesidad de contar con nuevas herramientas, conceptos o tecnologías que permitieran consumir los datos de forma más amigable. Esta evolución generó al mismo tiempo una necesidad de alfabetización ya que las personas tenían que acercarse a los datos y usarlos para tomar sus decisiones.
“Las áreas de analytics son como la historia sin fin. Cada vez que implementamos cualquier producto de datos se genera una ola de nuevos pedidos: cambios, nuevos modelos, etc. Esto es muy bueno porque indica que lo que hacemos se utiliza, si nadie solicita nada es porque lo que hacemos no se implementa o no sirve”, complementa Watson.
Por algún motivo histórico, el desarrollo de data & analytics nunca fue del todo metodológico, esto es paradójico ya que metodologías hay muchas. La consecuencia de arrastrar problemas sin encontrar una solución es que baja la credibilidad de las áreas de datos en las empresas. Según el estudio Building trust in Data Analytics, realizado por la consultora KPMG, sólo el 51% de los encuestados cree que los ejecutivos de alto nivel apoyan plenamente la estrategia de data & analytics.
DataOps al rescate
“En un contexto con tantas demandas tenemos que pensar distinto. Para realizar productos de datos de forma más sólida hay que cambiar el approach de desarrollo. Hace pocos años empezamos a escuchar el término DataOps que es una combinación de agilismo, DevOps y Control Estadístico de Procesos. DataOps busca acortar los ciclos de desarrollo, mantener la calidad de lo que entregamos y evitar caer en soluciones falsas”, continua el experto.
DataOps es una metodología que combina:
- Agilismo: La naturaleza de los proyectos de datos es cambiante, por eso el agilismo es ideal para organizar el desarrollo de los equipos. Es muy común que quienes vayan a usar el producto, soliciten algo y que después se den cuenta que eso no era precisamente lo que necesitaban. Por eso, para evitar desgastes innecesarios entre los equipos de datos y los usuarios del producto, lo más sano es involucrarlos desde el inicio del proyecto. Iterar de a poco, ofrecer avances de forma rápida e incremental y disminuir el ciclo de entregas.
- DevOps: Permite gestionar la infraestructura de forma más automática. Para poder iterar rápido, es necesario contar con el hardware y el software necesarios, por eso cobra sentido el uso de la nube y los servicios PaaS o serverless que permiten establecer entornos de forma inmediata.
- Control Estadístico de Procesos: El Statistical Process Control (SPC, por sus siglas en inglés) es lo que permitirá aplicar todo lo anterior a un proyecto de data & analytics. Imaginemos que el pipeline de datos es una cadena de montaje en la cual el dato crudo atraviesa diferentes etapas en las que el output de un proceso es el input del siguiente. SPC permite controlar de forma automática y en tiempo real, idealmente, todo el proceso de trabajo secuencial ya que genera controles automáticos que validen cada etapa. Hace posible controlar la cadena en cada uno de sus eslabones, si solo controláramos el inicio y el fin del proceso, sería muy difícil poder encontrar los errores, en caso que los hubiera.
“DataOps no pretende ser perfecto, define formas de trabajo y de controles para optimizar los resultados y asegura poder contener los problemas lo antes posible. Esta metodología contempla que, por más que nos esforcemos, lo que sea hagamos va a estar lejos de la perfección. Admitirlo es asumir la realidad que nos toca y aseguramos de estar a la altura de un momento en el cual las áreas de datos son críticas para el negocio”, finaliza Watson.
Para más información y consejos sobre cómo implementar DataOps en Databricks les recomendamos este webinar.