BigDataPedia: ¿Qué es el Data Warehouse?

6 marzo, 2020
9 Compartido 1,542 Visualizaciones

Se le conoce también con otros nombres como staging área, que significaría poner todos los datos operativos juntos, o the information warehouses, el nombre que se empezó a utilizar al referirse a este término en IBM y otros vendedores.

Un data warehouse es un proceso para guarda grandes cantidades de datos que han sido recopilados e integrados de múltiples fuentes. Principalmente, es el núcleo del sistema de BI creado para el análisis de datos y la generación de informes. 

La definición universal de este concepto pertenece al que es considerado su padre, Bill Inmon, y la hizo en los 80: «es una colección de datos, orientados a un tema, integrados, variantes en el tiempo y no-volátiles utilizados en las estrategias de toma de decisiones”.

Los beneficios de un data warehouse son:

  • Mejor toma de decisiones
  • Consolida datos de muchas fuentes.
  • Calidad, consistencia y precisión de los datos.
  • Inteligencia histórica
  • Separa el procesamiento analítico de las bases de datos transaccionales, mejorando el rendimiento de ambos sistemas.

Historia del data warehouse

En 1960, Dartmouth y General Mills comenzaron un proyecto de investigación conjunta donde desarrollaron los términos dimensiones y hechos. Después, en el 1970, llegaron Nielsen e IRI, quienes introducen los data marts para las ventas de minoristas. Aunque, lo más importante en los 70 fue la aparición del concepto data warehouses de la mano de Inmon Bill; en el 1992 escribió el libro Building the Data Warehouses.

Tera Data Corporation en 1983 presentó un sistema de gestión de bases de datos que estaba específicamente diseñado para el soporte de decisiones. A finales de la década de 1980 comenzó realmente el almacenamiento de datos cuando Paul Murphy y Barry Devlin de IBM desarrollaron el Business Data Warehouse.

Características del data warehouses 

Los data warehouses están enfocados principalmente para las empresas y harán uso, dentro de ellas, múltiples departamentos o muchas compañías o subdivisiones.

El diseño de estos tiene que ser tan resistente al cambio como fuera posible. Es un tipo de almacenamiento de datos masivos, por lo que uno de sus objetivos cuando se desarrolla es evitar que año tras año haya que descargar todos los datos, rediseñar la base y volverlos a cargar. Cuando se realiza el diseño hay que pensar en términos de procesos independientes, aplicaciones independientes y modelos de datos independientes de la tecnología de BI.

Cuando se crean estas bases de datos, también, hay que tener en cuenta que se haga con un mínimo de redundancia o duplicados de atributos o entidades. La mejor forma de hacerlo sería empleando técnicas de paralelización, carga de datos por bloque y API’s nativos. 

Otra de las características que tiene que tener toda buena data warehouses es poseer un formato que ofrezca la posibilidad de permitir el análisis de muchas o todas las tecnologías de Business Intelligence

Database vs data warehouses

Las principales diferencias que encontramos entre estos dos modelos son:

  • El Data warehouses recopila datos de diferentes fuentes y los homogeniza, mientras que las dabase recoge datos de un único origen.
  • El data warehouses recopila datos en cronogramas predeterminados, mientras que la data base los recoge en tiempo real.
  • En la normalización de datos los data warehouses lo hace como los esquemas Star o Snowflake, y la data base utiliza esquemas estáticos con alto nivel de normalización.

Data Lake vs data warehouses

Las principales diferencias entre estos dos modelos son:

  • Los data lake recogen datos no relacionados que provienen de dispositivos con IoT, sitios web aplicaciones móviles, redes sociales y aplicaciones corporativas. En cambio, los data warehouses tienen datos relacionados provenientes de sistemas transaccionales, bases de datos operativas y aplicaciones de línea de negocio.
  • Los data warehouses se diseñan con anterioridad, mientras que los data lake son de esquema de lectura.

6 data warehouses en el mercado

  • Snowflake
  • Terradata
  • Oracle
  • AWS
  • Cloudera
  • MarkLogic

Te podría interesar

IV Big Data Talent Madrid: una oportunidad para conocer qué buscan las empresas
Actualidad
9 compartido1,438 visualizaciones
Actualidad
9 compartido1,438 visualizaciones

IV Big Data Talent Madrid: una oportunidad para conocer qué buscan las empresas

Georgina Ortíz - 4 marzo, 2020

La próxima semana se celebra en la Facultad de Informática de la Universidad Complutense de Madrid (UCM) un evento organizado por el Big Data International Campus. El…

»Algunos de nuestros clientes están utilizando la inteligencia artificial para conocer el estado de ánimo de sus clientes y el impacto de las nuevas colecciones»
Business Intelligence
19 compartido2,532 visualizaciones
Business Intelligence
19 compartido2,532 visualizaciones

»Algunos de nuestros clientes están utilizando la inteligencia artificial para conocer el estado de ánimo de sus clientes y el impacto de las nuevas colecciones»

Mónica Gallego - 22 enero, 2019

La Inteligencia Artificial (IA) es, cada vez, más utilizada en nuestra sociedad, aunque muchos apenas se den cuenta. Big Data Magazine se entrevista con Ignacio Alonso, Director…

Controlar el clima en la Smart Home tiene doble ventaja, más bienestar y ahorro
Actualidad
21 compartido1,719 visualizaciones
Actualidad
21 compartido1,719 visualizaciones

Controlar el clima en la Smart Home tiene doble ventaja, más bienestar y ahorro

José Luis Arcángel - 7 septiembre, 2018

El gasto de energía también se minimiza gracias a la climatización inteligente. ¿Te sientes confortable en casa? ¿Sientes bienestar en cualquiera de las estancias en cualquier momento…

Dejar comentario

Su email no será publicado

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.