¿Qué es un Data Lake?

El data lake es como se conoce comúnmente a los grandes conjuntos de datos que se almacenan en un repositorio dado que son susceptibles de ser utilizados cuando así se requiera. Estos datos se almacenan en bruto sin una estructura definida o determinada, pueden ser estructurados o datos no estructurados.

A diferencia de otros conjuntos de datos, los datos que se almacenan en un data lake no son tratados ni estructurados. Los datos originales se almacenan a la espera de ser recuperados para su procesamiento y posterior análisis.

No necesariamente son utilizados en el momento de su creación, sino que se almacenan con la intención de ser utilizados sólo cuando se necesiten y se crea que pueden aportar información para complementar otros conjuntos de datos.

La principal ventaja de los data lake es que su estructura permite centralizar en un solo lugar datos provenientes de diferentes fuentes de información.

Otra ventaja de los data lake es que permite coleccionar datos que quizá esos datos no son valiosos en el momento que se generan o se almacenan pero sí que son susceptibles de ser analizados en un futuro por el valor que pueden contener.

Muchas empresas no cuentan con recursos necesarios para emprender todo tipo de análisis o no cuentan con una estructura que les permita analizar todos los datos que quisieran, pero el data lake permite almacenar esa información hasta que sea factible analizarla para ser explotada en un futuro en lugar de ser desechada.

Leave a Reply