Conecta con nosotros

A Fondo

Data lake, ¿en qué se diferencia de un data warehouse?

Publicado el

repositorio

Si estás relacionado de alguna manera con el Big Data, sabrás que encontrar soluciones de almacenamiento para los volúmenes de datos que se van generando cada segundo es de suma importancia. A la hora de gestionar información, los profesionales pueden optar por un data warehouse o un data lake como repositorio para los datos. Pero, ¿qué herramienta es la más adecuada?

¿Qué es un data lake?

Algunos creen, erróneamente que un data lake es, simplemente, la versión 2.0 de un data warehouse (almacén de datos) pero, si bien son similares, lo cierto es que son herramientas diferentes que se deben usar para diversos propósitos, según indican en este artículo de Forbes. A James Dixon, CTO de la empresa Pentaho, se le atribuye la denominación de data lake y usa la siguiente analogía:

«Si piensas un una ‘datamart’ como una tienda de agua embotellada, limpia y preparada para ser consumida fácilmente, el data lake sería como una gran cantidad de agua en un estado más natural. El contenido del data lake fluye de una fuente para llenar el lago y los usuarios pueden examinar, sumergirse o tomar muestras de él».

Un «lago de datos» contiene información no estructurada y no hay jerarquía u organización entre los datos individuales, por lo que los mantiene en su forma más pura: no se procesan ni se analizan. Por otra parte, esta herramienta acepta y retiene datos de cualquier fuente y esquemas, aplicándose solo cuando están listos para ser utilizados.

¿Qué es un data warehouse?

Un data warehouse almacena datos de manera organizada, con todo archivado y ordenado de forma definida. Cuando se estructura un almacén de datos se dedica un gran esfuerzo a las etapas iniciales, que es cuando se analizan las fuentes y se comprenden los procesos empresariales y comerciales. Las decisiones se toman con respecto a qué datos incluir y excluir del almacén, de manera que la información que se queda es la que tiene un uso específico.

Diferencias entre ambos

Datos

Los data lakes tienen todo tipo de datos (estructurados, semiestructurados y desestructurados) y es posible que muchos de ellos no se utilicen nunca, aunque se conserven todos. Sin embargo, un data warehouse solo incluye datos estructurados y aquellos que se necesitan para informar o responder preguntas específicas del negocio.

Agilidad

Dado que un data lake carece de estructura, es relativamente fácil hacer cambios tanto en modelos como en consultas, ya que son más flexibles y pueden configurarse y reconfigurarse según sea necesario y dependiendo de para qué se necesiten. Sin embargo, es mucho más engorroso y lleva mucho más tiempo cambiar la estructura de un data warehouse debido a la gran cantidad de procesos empresariales que hay relacionados.

Usuarios

Generalmente, los científicos de datos son los que acceden a la información en los data lakes porque tienen las habilidades necesarias para realizar un análisis profundo. Técnicamente, los data lakes pueden admitir a todos los usuarios y estar disponibles para ellos, mientras que los data warehouse son utilizados para usuarios de negocio, muy específicos, con el objetivo de informar y extraer un significado particular de la información que se definió al configurarlo. Generalmente, los almacenes son demasiado restrictivos para los científicos de datos que necesitan ir más allá de los límites que imponen estos para obtener nuevos análisis de la información.

Seguridad

Dado que los data warehouses son más maduros que los data lakes, su seguridad también es más sólida. Existe cierta preocupación por que todos los datos se almacenen en un repositorio como los data lakes, porque hace que sean más vulnerables. Lo que sí es cierto es que tener una sola tienda para administrar facilita la auditoría y el cumplimiento de normativas.

En resumen, ambas herramientas son diferentes y sirven a distintos propósitos. Si su empresa ya tiene un depósito de datos establecido, puede optar por implementar un data lake cercano para solucionar algunas de las limitaciones que experimenta el primero (como ya hemos visto). Para determinar qué solución es la mejor para su caso, debe comenzar por poner encima de la mesa el objetivo que quiere alcanzar y utilizar.

Periodista especializada en tecnologías corporate, encargada de las entrevistas en profundidad y los reportajes de investigación en MuyComputerPRO. En el ámbito del marketing digital, gestiono y ejecuto las campañas de leads generation y gestión de eventos.

Lo más leído