¿Qué es el Data Warehouse?

Se le conoce también con otros nombres como staging área, que significaría poner todos los datos operativos juntos, o the information warehouses, el nombre que se empezó a utilizar al referirse a este término en IBM y otros vendedores.

Un data warehouse es un proceso para guarda grandes cantidades de datos que han sido recopilados e integrados de múltiples fuentes. Principalmente, es el núcleo del sistema de BI creado para el análisis de datos y la generación de informes. 

La definición universal de este concepto pertenece al que es considerado su padre, Bill Inmon, y la hizo en los 80: «es una colección de datos, orientados a un tema, integrados, variantes en el tiempo y no-volátiles utilizados en las estrategias de toma de decisiones”.

Los beneficios de un data warehouse son:

  • Mejor toma de decisiones
  • Consolida datos de muchas fuentes.
  • Calidad, consistencia y precisión de los datos.
  • Inteligencia histórica
  • Separa el procesamiento analítico de las bases de datos transaccionales, mejorando el rendimiento de ambos sistemas.

Historia del data warehouse

En 1960, Dartmouth y General Mills comenzaron un proyecto de investigación conjunta donde desarrollaron los términos dimensiones y hechos. Después, en el 1970, llegaron Nielsen e IRI, quienes introducen los data marts para las ventas de minoristas. Aunque, lo más importante en los 70 fue la aparición del concepto data warehouses de la mano de Inmon Bill; en el 1992 escribió el libro Building the Data Warehouses.

Tera Data Corporation en 1983 presentó un sistema de gestión de bases de datos que estaba específicamente diseñado para el soporte de decisiones. A finales de la década de 1980 comenzó realmente el almacenamiento de datos cuando Paul Murphy y Barry Devlin de IBM desarrollaron el Business Data Warehouse.

Características del data warehouses 

Los data warehouses están enfocados principalmente para las empresas y harán uso, dentro de ellas, múltiples departamentos o muchas compañías o subdivisiones.

El diseño de estos tiene que ser tan resistente al cambio como fuera posible. Es un tipo de almacenamiento de datos masivos, por lo que uno de sus objetivos cuando se desarrolla es evitar que año tras año haya que descargar todos los datos, rediseñar la base y volverlos a cargar. Cuando se realiza el diseño hay que pensar en términos de procesos independientes, aplicaciones independientes y modelos de datos independientes de la tecnología de BI.

Cuando se crean estas bases de datos, también, hay que tener en cuenta que se haga con un mínimo de redundancia o duplicados de atributos o entidades. La mejor forma de hacerlo sería empleando técnicas de paralelización, carga de datos por bloque y API’s nativos. 

Otra de las características que tiene que tener toda buena data warehouses es poseer un formato que ofrezca la posibilidad de permitir el análisis de muchas o todas las tecnologías de Business Intelligence

Database vs data warehouses

Las principales diferencias que encontramos entre estos dos modelos son:

  • El Data warehouses recopila datos de diferentes fuentes y los homogeniza, mientras que las dabase recoge datos de un único origen.
  • El data warehouses recopila datos en cronogramas predeterminados, mientras que la data base los recoge en tiempo real.
  • En la normalización de datos los data warehouses lo hace como los esquemas Star o Snowflake, y la data base utiliza esquemas estáticos con alto nivel de normalización.

Data Lake vs data warehouses

Las principales diferencias entre estos dos modelos son:

  • Los data lake recogen datos no relacionados que provienen de dispositivos con IoT, sitios web aplicaciones móviles, redes sociales y aplicaciones corporativas. En cambio, los data warehouses tienen datos relacionados provenientes de sistemas transaccionales, bases de datos operativas y aplicaciones de línea de negocio.
  • Los data warehouses se diseñan con anterioridad, mientras que los data lake son de esquema de lectura.

6 data warehouses en el mercado

  • Snowflake
  • Terradata
  • Oracle
  • AWS
  • Cloudera
  • MarkLogic

TE PUEDE GUSTAR

EVENTOS

RECIBE NUESTRA NEWSLETTER

*Email:

*Nombre:

*Empresa:

Cargo:

Sector:
     

Please don't insert text in the box below!

ESCUCHA NUESTRO PODCAST

SÍGUENOS EN RRSS

MÁS COMENTADOS

Scroll al inicio
Resumen de privacidad

Las cookies y otras tecnologías similares son una parte esencial de cómo funciona nuestra web. El objetivo principal de las cookies es que tu experiencia de navegación sea más cómoda y eficiente y poder mejorar nuestros servicios y la propia web. Aquí podrás obtener toda la información sobre las cookies que utilizamos y podrás activar y/o desactivar las mismas de acuerdo con tus preferencias, salvo aquellas Cookies que son estrictamente necesarias para el funcionamiento de la web de BigDataMagazine. Ten en cuenta que el bloqueo de algunas cookies puede afectar tu experiencia en la web y el funcionamiento de la misma. Al pulsar “Guardar cambios”, se guardará la selección de cookies que has realizado. Si no has seleccionado ninguna opción, pulsar este botón equivaldrá a rechazar todas las cookies. Para más información puedes visitar nuestra Políticas de Cookies. Podrás cambiar en cualquier momento tus preferencias de cookies pinchando en el enlace “Preferencias de cookies” situado en la parte inferior de nuestra web.