ml_bioinformatica_5ed: Un proyecto interesante de Big Data / An interesting Big Data project

Re: Un proyecto interesante de Big Data / An interesting Big Data project

de Francisco Javier García Castellano - jueves, 24 de abril de 2025, 10:35

¡Muchas gracias Isabel por tu aportación!

Como en el ejemplo que pones, lo habitual en entornos tradicionales de Big Data es usar Hadoop (con HDFS para el almacenamiento y YARN para la gestión del clúster) junto con Apache Spark para el procesamiento y análisis de datos. De hecho, cuando descargas Apache Spark, puedes elegir una versión precompilada compatible con Hadoop, lo que permite que Spark interactúe fácilmente con HDFS o se ejecute sobre YARN. Sin embargo, Spark no incluye Hadoop como tal en el paquete de descarga; simplemente está preparado para funcionar con él si así se configura.

-------------------------

Thank you very much Isabel for your contribution!

As in the example you give, in traditional Big Data environments, it's common to use Hadoop (with HDFS for storage and YARN for cluster management) alongside Apache Spark for data processing and analysis. In fact, when downloading Apache Spark, you can choose a precompiled version that's compatible with Hadoop, which makes it easy for Spark to interact with HDFS or run on YARN. However, Spark does not include Hadoop itself in the download package; it’s simply configured to work with it if needed.

Foro de debate módulo 7

Un proyecto interesante de Big Data / An interesting Big Data project

Re: Un proyecto interesante de Big Data / An interesting Big Data project

Centro de Producción de Recursos para la Universidad Digital

MOOC Machine Learning y Big Data para la Bioinformática. 5ª Edición

Foro de debate módulo 7

Un proyecto interesante de Big Data / An interesting Big Data project

Centro de Producción de Recursos para la Universidad Digital