BigDataPedia: ¿Qué es el Data Warehouse?

6 marzo, 2020
9 Compartido 1,935 Visualizaciones

Se le conoce también con otros nombres como staging área, que significaría poner todos los datos operativos juntos, o the information warehouses, el nombre que se empezó a utilizar al referirse a este término en IBM y otros vendedores.

Un data warehouse es un proceso para guarda grandes cantidades de datos que han sido recopilados e integrados de múltiples fuentes. Principalmente, es el núcleo del sistema de BI creado para el análisis de datos y la generación de informes. 

La definición universal de este concepto pertenece al que es considerado su padre, Bill Inmon, y la hizo en los 80: «es una colección de datos, orientados a un tema, integrados, variantes en el tiempo y no-volátiles utilizados en las estrategias de toma de decisiones”.

Los beneficios de un data warehouse son:

  • Mejor toma de decisiones
  • Consolida datos de muchas fuentes.
  • Calidad, consistencia y precisión de los datos.
  • Inteligencia histórica
  • Separa el procesamiento analítico de las bases de datos transaccionales, mejorando el rendimiento de ambos sistemas.

Historia del data warehouse

En 1960, Dartmouth y General Mills comenzaron un proyecto de investigación conjunta donde desarrollaron los términos dimensiones y hechos. Después, en el 1970, llegaron Nielsen e IRI, quienes introducen los data marts para las ventas de minoristas. Aunque, lo más importante en los 70 fue la aparición del concepto data warehouses de la mano de Inmon Bill; en el 1992 escribió el libro Building the Data Warehouses.

Tera Data Corporation en 1983 presentó un sistema de gestión de bases de datos que estaba específicamente diseñado para el soporte de decisiones. A finales de la década de 1980 comenzó realmente el almacenamiento de datos cuando Paul Murphy y Barry Devlin de IBM desarrollaron el Business Data Warehouse.

Características del data warehouses 

Los data warehouses están enfocados principalmente para las empresas y harán uso, dentro de ellas, múltiples departamentos o muchas compañías o subdivisiones.

El diseño de estos tiene que ser tan resistente al cambio como fuera posible. Es un tipo de almacenamiento de datos masivos, por lo que uno de sus objetivos cuando se desarrolla es evitar que año tras año haya que descargar todos los datos, rediseñar la base y volverlos a cargar. Cuando se realiza el diseño hay que pensar en términos de procesos independientes, aplicaciones independientes y modelos de datos independientes de la tecnología de BI.

Cuando se crean estas bases de datos, también, hay que tener en cuenta que se haga con un mínimo de redundancia o duplicados de atributos o entidades. La mejor forma de hacerlo sería empleando técnicas de paralelización, carga de datos por bloque y API’s nativos. 

Otra de las características que tiene que tener toda buena data warehouses es poseer un formato que ofrezca la posibilidad de permitir el análisis de muchas o todas las tecnologías de Business Intelligence

Database vs data warehouses

Las principales diferencias que encontramos entre estos dos modelos son:

  • El Data warehouses recopila datos de diferentes fuentes y los homogeniza, mientras que las dabase recoge datos de un único origen.
  • El data warehouses recopila datos en cronogramas predeterminados, mientras que la data base los recoge en tiempo real.
  • En la normalización de datos los data warehouses lo hace como los esquemas Star o Snowflake, y la data base utiliza esquemas estáticos con alto nivel de normalización.

Data Lake vs data warehouses

Las principales diferencias entre estos dos modelos son:

  • Los data lake recogen datos no relacionados que provienen de dispositivos con IoT, sitios web aplicaciones móviles, redes sociales y aplicaciones corporativas. En cambio, los data warehouses tienen datos relacionados provenientes de sistemas transaccionales, bases de datos operativas y aplicaciones de línea de negocio.
  • Los data warehouses se diseñan con anterioridad, mientras que los data lake son de esquema de lectura.

6 data warehouses en el mercado

  • Snowflake
  • Terradata
  • Oracle
  • AWS
  • Cloudera
  • MarkLogic

Te podría interesar

“Ahora se explota entre un 1 y un 2 % del genoma, porque es lo que se puede interpretar”
Actualidad
67 compartido5,376 visualizaciones
Actualidad
67 compartido5,376 visualizaciones

“Ahora se explota entre un 1 y un 2 % del genoma, porque es lo que se puede interpretar”

José Luis Arcángel - 3 diciembre, 2018

Entrevistamos a Clément Destoumieux, CEO de medmesafe. La empresa destinada a cambiar el mundo sanitario gracias a la medicina predictiva. Big Data e Inteligencia Artificial son protagonistas en una iniciativa que…

Un mes con Amazon Alexa  (incluye vídeo)
Inteligencia Artificial
21 compartido3,046 visualizaciones
Inteligencia Artificial
21 compartido3,046 visualizaciones

Un mes con Amazon Alexa (incluye vídeo)

Mónica Gallego - 20 marzo, 2019

El nuevo altavoz Echo Plus de Amazon viene con más fuerza tras su segunda edición. El asistente personal Alexa nos permite realizar llamadas, enviar y recibir mensajes…

Jukebox: una red neuronal que genera música a través de la IA
Actualidad
8 compartido1,409 visualizaciones
Actualidad
8 compartido1,409 visualizaciones

Jukebox: una red neuronal que genera música a través de la IA

Redacción BDM - 5 mayo, 2020

A través de análisis de más de 1,2 millones de canciones, esta red neuronal es capaz de imitar el estilo de artistas y de géneros musicales. La…

Dejar comentario

Su email no será publicado

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.