Se le conoce también con otros nombres como staging área, que significaría poner todos los datos operativos juntos, o the information warehouses, el nombre que se empezó a utilizar al referirse a este término en IBM y otros vendedores.
Un data warehouse es un proceso para guarda grandes cantidades de datos que han sido recopilados e integrados de múltiples fuentes. Principalmente, es el núcleo del sistema de BI creado para el análisis de datos y la generación de informes.
La definición universal de este concepto pertenece al que es considerado su padre, Bill Inmon, y la hizo en los 80: «es una colección de datos, orientados a un tema, integrados, variantes en el tiempo y no-volátiles utilizados en las estrategias de toma de decisiones”.
Los beneficios de un data warehouse son:
- Mejor toma de decisiones
- Consolida datos de muchas fuentes.
- Calidad, consistencia y precisión de los datos.
- Inteligencia histórica
- Separa el procesamiento analítico de las bases de datos transaccionales, mejorando el rendimiento de ambos sistemas.
Historia del data warehouse
En 1960, Dartmouth y General Mills comenzaron un proyecto de investigación conjunta donde desarrollaron los términos dimensiones y hechos. Después, en el 1970, llegaron Nielsen e IRI, quienes introducen los data marts para las ventas de minoristas. Aunque, lo más importante en los 70 fue la aparición del concepto data warehouses de la mano de Inmon Bill; en el 1992 escribió el libro Building the Data Warehouses.
Tera Data Corporation en 1983 presentó un sistema de gestión de bases de datos que estaba específicamente diseñado para el soporte de decisiones. A finales de la década de 1980 comenzó realmente el almacenamiento de datos cuando Paul Murphy y Barry Devlin de IBM desarrollaron el Business Data Warehouse.
Características del data warehouses
Los data warehouses están enfocados principalmente para las empresas y harán uso, dentro de ellas, múltiples departamentos o muchas compañías o subdivisiones.
El diseño de estos tiene que ser tan resistente al cambio como fuera posible. Es un tipo de almacenamiento de datos masivos, por lo que uno de sus objetivos cuando se desarrolla es evitar que año tras año haya que descargar todos los datos, rediseñar la base y volverlos a cargar. Cuando se realiza el diseño hay que pensar en términos de procesos independientes, aplicaciones independientes y modelos de datos independientes de la tecnología de BI.
Cuando se crean estas bases de datos, también, hay que tener en cuenta que se haga con un mínimo de redundancia o duplicados de atributos o entidades. La mejor forma de hacerlo sería empleando técnicas de paralelización, carga de datos por bloque y API’s nativos.
Otra de las características que tiene que tener toda buena data warehouses es poseer un formato que ofrezca la posibilidad de permitir el análisis de muchas o todas las tecnologías de Business Intelligence.
Database vs data warehouses
Las principales diferencias que encontramos entre estos dos modelos son:
- El Data warehouses recopila datos de diferentes fuentes y los homogeniza, mientras que las dabase recoge datos de un único origen.
- El data warehouses recopila datos en cronogramas predeterminados, mientras que la data base los recoge en tiempo real.
- En la normalización de datos los data warehouses lo hace como los esquemas Star o Snowflake, y la data base utiliza esquemas estáticos con alto nivel de normalización.
Data Lake vs data warehouses
Las principales diferencias entre estos dos modelos son:
- Los data lake recogen datos no relacionados que provienen de dispositivos con IoT, sitios web aplicaciones móviles, redes sociales y aplicaciones corporativas. En cambio, los data warehouses tienen datos relacionados provenientes de sistemas transaccionales, bases de datos operativas y aplicaciones de línea de negocio.
- Los data warehouses se diseñan con anterioridad, mientras que los data lake son de esquema de lectura.
6 data warehouses en el mercado
- Snowflake
- Terradata
- Oracle
- AWS
- Cloudera
- MarkLogic