Base de Datos vs Data Lake vs Data Warehouse

Paloma Recuero de los Santos    25 julio, 2019
Imagen de un lago

¿Conoces la diferencia entre una base de datos, un data lake y un data warehouse? Si quieres aprender a distinguirlos, sigue leyendo.

Algunas personas piensan que el data lake no es más que “la última versión” del datawarehouse, pero en realidad, se trata de herramientas diferentes, que se usan para distintas cosas.

¿Qué es una base de datos?

Para entenderlo mejor, vayamos a los orígenes: las bases de datos. Una base de datos es un conjunto de datos organizados de una determinada manera. Comenzaron a usarse en los años 50, y consistían en simples filas y columnas.

Años después se hicieron populares las bases de datos relacionales, que almacenan los datos en forma de tablas, y las bases de datos orientadas a objetos. Estas últimas, almacenan datos complejos y relaciones entre datos directamente, sin asignar filas o columnas.

Las bases de datos sirven para monitorizar y actualizar datos estructurados en tiempo real. Normalmente, solo tienen disponibles. los datos más recientes

¿Qué es un datawarehouse?

Por su parte, un datawarehouse es sistema de almacenamiento de datos diseñado para dar soporte al flujo de datos desde sistemas operativos a sistemas de decisión. Recoge los datos de diversas fuentes, internas o externas y los organiza de forma muy concreta para optimizar su recuperación con fines comerciales (extraer Insights de negocio). Sólo contiene los datos para a los que se quiere dar cierto uso. Éstos suelen ser estructurados (a veces, proceden de bases de datos relacionales), o no.

¿Qué es un datalake?

En los años 2000, surgieron los datalakes, como alternativa más rentable para el almacenamiento de datos no estructurados. Aunque ya se podían almacenar este tipo de datos en los formatos anteriores, los procesos de depuración y preparación eran largos y costosos. Los datalakes almacen datos los en bruto, sin ninguna estructura, jerarquía ni organización. Datos de cualquier fuente, en cualquier formato. Texto, datos de redes sociales,todo tipo de logs o registro de datos de sensores de dispositivos IoT. Al no tener estructura, son mucho más flexibles que los datawarehouses. Sin embargo, estos últimos, como tecnología más madura, también tienen mejores sistemas de seguridad.

Conclusión:

¿Y cuál es la mejor solución?. Dependerá de nuestro problema. Conforme aumenta el volumen de datos no estructurados, los datalakes en la nube se hacen más populares, ya que son más rentables y fáciles de mover cuando es necesario. Sin embargo, siempre habrá un lugar para las bases de datos y datawarehouse.

Para saber más sobre arquitecturas de datos, no te pierdas esta serie en nuestro blog:

Para mantenerte al día con LUCA visita nuestra página web,  suscríbete a LUCA Data Speaks o síguenos en TwitterLinkedIn YouTube.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *