ml_bioinformatica_6ed: ¿Dónde guardamos los datos? / Where do we store data? / (Data Warehouse vs. Lake vs. Lakehouse)

¿Dónde guardamos los datos? / Where do we store data? / (Data Warehouse vs. Lake vs. Lakehouse)

de Francisco Javier García Castellano - miércoles, 22 de abril de 2026, 10:12

¡Hola a todos/as! Me gustaría aclarar tres términos que leeréis constantemente en el mundo del Big Data y que a veces se confunden: Warehouse, Lake y Lakehouse.

Para entenderlo, imaginad que estamos en la cocina de un gran restaurante de bioinformática:
* Data Warehouse (El estante de especias): Es un almacén de datos muy ordenados y estructurados. Todo está etiquetado y en su sitio (filas y columnas perfectas). Es ideal para informes rápidos, pero es rígido y caro si intentas guardar datos "en bruto" o sin procesar.
* Data Lake (La despensa gigante): Aquí tiramos todo lo que llega del laboratorio: archivos genómicos inmensos, imágenes médicas, PDFs... Es barato y admite cualquier formato (datos no estructurados). El problema es que, si no se gestiona bien, se convierte en un "pantano de datos" donde es imposible encontrar nada.
* Data Lakehouse (El concepto moderno): Es lo mejor de los dos mundos y la tendencia que domina en 2026. Es un sistema que permite guardar datos masivos y variados como en un Lake, pero con la organización, la calidad y la velocidad de un Warehouse.

¿Por qué nos importa esto en el módulo 7? Porque Apache Spark es la herramienta perfecta para trabajar en un Lakehouse. Spark puede leer esos datos masivos "en bruto" de la despensa y, gracias a su potencia, darles estructura y sentido en tiempo real para nuestros modelos de Machine Learning.

En resumen: ya no tenemos que elegir entre orden o volumen; con el Lakehouse y Spark, lo tenemos todo.
¿Habíais oído estos términos antes o os sonaban a "chino"? ¡Contadnos en este hilo!

Hi everyone! I’d like to clarify three terms you’ll constantly see in the Big Data world: Warehouse, Lake, and Lakehouse.
To make it simple, imagine we are in the kitchen of a large bioinformatics restaurant:

* Data Warehouse (The spice rack): A storage for highly organized and structured data. Everything is labeled and in its place (perfect rows and columns). It’s great for quick reports, but it's rigid and expensive if you try to store "raw" or unprocessed data.
* Data Lake (The giant pantry): Here, we throw in everything that comes from the lab: massive genomic files, medical images, PDFs... It’s cheap and accepts any format (unstructured data). The problem is that without proper management, it turns into a "data swamp" where finding anything is impossible.
* Data Lakehouse (The modern concept): This is the best of both worlds and the dominant trend in 2026. It’s a system that allows you to store massive, varied data like a Lake, but with the organization, quality, and speed of a Warehouse.

Why does this matter for Module 7? Because Apache Spark is the perfect tool for working in a Lakehouse. Spark can read that raw, massive data from the pantry and, thanks to its power, give it structure and meaning in real-time for our Machine Learning models.

In short: we no longer have to choose between order or volume; with the Lakehouse and Spark, we have it all.
Had you heard these terms before, or did they sound like "Greek" to you? Let us know in this thread!

Foro de debate módulo 7

¿Dónde guardamos los datos? / Where do we store data? / (Data Warehouse vs. Lake vs. Lakehouse)

¿Dónde guardamos los datos? / Where do we store data? / (Data Warehouse vs. Lake vs. Lakehouse)

Centro de Producción de Recursos para la Universidad Digital

MOOC Machine Learning y Big Data para la Bioinformática. 6ª Edición

Foro de debate módulo 7

¿Dónde guardamos los datos? / Where do we store data? / (Data Warehouse vs. Lake vs. Lakehouse)

Centro de Producción de Recursos para la Universidad Digital