Es hora de conocer más sobre los ata lake o lagos de datos: qué son, cómo se utilizan y cómo los lagos de datos son diferentes y complementarios a los almacenes de datos.
Un lago de datos es esencialmente un único repositorio de datos que contiene todos sus datos hasta que estén listos para el análisis, o posiblemente sólo los datos que no caben en su almacén de datos. Normalmente, un lago de datos almacena los datos en su formato de archivo nativo, pero los datos pueden transformarse a otro formato para que el análisis sea más eficiente. El objetivo de tener un lago de datos es extraer valor comercial o analítico de los datos.
Los lagos de datos pueden albergar datos binarios, como imágenes y vídeos, datos no estructurados, como documentos PDF, y datos semiestructurados, como archivos CSV y JSON, así como datos estructurados, normalmente procedentes de bases de datos relacionales. Los datos estructurados son más útiles para el análisis, pero los semiestructurados pueden importarse fácilmente a un formato estructurado. Los datos no estructurados pueden convertirse a menudo en datos estructurados mediante la automatización inteligente.
Data Lake vs Data Warehouse
La cuestión no es si se necesita un lago de datos o un almacén de datos; lo más probable es que se necesiten ambos, pero para fines diferentes. También es posible combinarlos, como comentaremos en breve. Para empezar, veamos las principales diferencias entre los lagos de datos y los almacenes de datos:
- Las fuentes de datos: Las fuentes típicas de datos para los lagos de datos incluyen archivos de registro, datos de flujos de clics, publicaciones en redes sociales y datos de dispositivos conectados a Internet. Los almacenes de datos suelen almacenar datos extraídos de bases de datos transaccionales, aplicaciones de línea de negocio y bases de datos operativas para su análisis.
- Estrategia de esquemas: El esquema de la base de datos de un data lakes se aplica normalmente en el momento del análisis, lo que se denomina esquema en lectura. El esquema de la base de datos para los almacenes de datos empresariales suele diseñarse antes de la creación del almacén de datos y se aplica a los datos a medida que se importan. Esto se denomina esquema en escritura.
- Infraestructura de almacenamiento: Los almacenes de datos suelen tener cantidades significativas de RAM y discos SSD caros para poder ofrecer resultados de consulta con rapidez. Los lagos de datos suelen utilizar discos giratorios baratos en clusters de ordenadores básicos. Tanto los almacenes de datos como los lagos de datos utilizan el procesamiento paralelo masivo (MPP) para acelerar las consultas SQL.
- Datos crudos frente a datos curados: Se supone que los datos de un almacén de datos están curados hasta el punto de que el almacén de datos puede ser tratado como la «única fuente de verdad» para una organización. Los datos de un lago de datos pueden o no estar curados: los lagos de datos suelen empezar con datos brutos, que posteriormente pueden filtrarse y transformarse para su análisis.
- Quién lo utiliza: Los usuarios de almacenes de datos suelen ser analistas de negocio. Los usuarios de los lagos de datos suelen ser científicos de datos o ingenieros de datos, al menos al principio. Los analistas de negocio tienen acceso a los datos una vez que han sido curados.
- Tipo de análisis: El análisis típico de los almacenes de datos incluye la inteligencia empresarial, los informes por lotes y las visualizaciones. En el caso de los lagos de datos, el análisis típico incluye el aprendizaje automático, el análisis predictivo, el descubrimiento de datos y la creación de perfiles de datos.